自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Google Play Store谷歌应用商店游戏数据分析

数据集:Google Play Store Apps 网址:https://www.kaggle.com/lava18/google-play-store-apps?select=googleplaystore.csv此数据集包含了两个csv文件,一个是Google play store app的整体数据,一个是Google play store用户评论的数据。用户评论数据主观性非常大,且内容少,所以这里我们选取的是Google play store app的整体数据进行分析。Google pla

2020-08-10 09:42:52 5693 1

原创 Mysql- 交易失败之后首次交易成功的间隔 - 按用户取平均

看了很多用lead函数写两次交易(或者其他操作)之间的时间间隔,但是如果两次行为不一致的话就不太好直接取lead相减了。这里写了个join的方法,不知道有没有可以不用到join的办法来解答呢~目的是:7.18的fail交易,下一次是在7.20成功。假设我们取一个用户来看(多个用户按用户分组就完事了)7.19的fail交易,下一次也是在7.20交易成功。那么平均间隔就是 (2+1)/2 = 1.5。中间的子查询是这样的表。

2023-08-11 14:45:44 81

原创 Pandas 日期时间列里删除时间,只保留日期

提醒自己不要用dt.date踩过的坑很可能转换完格式之后不对筛选不出来 - 虽然我也不知道为什么首先这是我们的raw_data可以看到这列是 日期 + 时间 的格式现在我想把日期和时间分开 用pandassample_event['Install_date'] = pd.to_datetime(sample_event['Install Time'])sample_event['Install_date'] = sample_event['Install_date'].apply(lambd

2021-11-04 16:10:38 3901 1

原创 The Monty Hall problem - 三门问题个人超简单角度的理解

在复习MITx 6.431x概率论这门课的时候,发现一个很有趣的问题,叫Monty Hall problem,出自美国电视节目Let’s Make a Deal.问题的场景:节目提供了三扇门,门后有羊或者汽车,一共两只羊,一辆汽车。幸运观众先随机选择一扇门,主持人会在剩下的两个门中打开一扇门,且这扇门后必然是羊如果想赢得汽车,幸运观众应该保持自己的选择,还是选择换另一扇门?我的第一个反映和很多人一样,我认为既然已经排除了一扇背后是羊的门,那么在剩下两扇门中,背后的汽车的概率都是1/2。但是

2021-10-20 19:53:11 1886

原创 Pandas 实现excel类似vlookup 的匹配功能 (apply, merge, join)

Excel的vlookup功能在数据量太大的前提下就挺难用的,所以还是需要pandas搞定下面是用pandas实现匹配的方法如下图,假如我有一个表 全是印尼文 A有另一张在google sheet上翻译出来的表 B现在我想匹配第一张表 category1_name 的英文版本1. dict + apply 我觉得最好的方法首先将翻译的那张表转成字典形式import pandas as pddict1 = dict(zip(trans['Indonesian'],trans['Engli

2021-08-09 14:46:50 7290 3

原创 Pandas在groupby中保留所有字段 - transform用法

比如说我现在有一些数据,商品id和商品名称不是一一对应的,但是实际上是一个商品,只是略微改了名称现在我的目的是计算每个商品的销售量,销售额,因为商品名称有略微改变,所以我直接保存第一次出现的商品名称,使得每个商品只有一条数据以防报警告我先复制一下samplecopy = sample.copy()现在我们对sample按照sku_id进行聚合,得到的volume和value是我们最终想要的,我们把这个volume和value直接transform到copy后的数据中,得到这样的数据然后我们可

2021-07-28 09:11:43 2961

原创 Pandas分组(groupby)迭代合并输出 - 选取当前行之前的最大值

需求:添加一列,对每一个商品选取 在当前日期之前,sold_volme最大值首先添加这个列,辅助赋值import pandas as pdimport numpy as npsample['greatest_volume'] = 0然后创建分组grouped_sample = sample.groupby('sku_name')创建一个空的dataframedf = pd.DataFrame()接下来用for循环,先遍历每一个group,然后在每一个group里面操作,最后合并

2021-07-27 16:04:02 499

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除