德德德真的是我-CSDN博客

原创 Google Play Store谷歌应用商店游戏数据分析

数据集：Google Play Store Apps 网址：https://www.kaggle.com/lava18/google-play-store-apps?select=googleplaystore.csv此数据集包含了两个csv文件，一个是Google play store app的整体数据，一个是Google play store用户评论的数据。用户评论数据主观性非常大，且内容少，所以这里我们选取的是Google play store app的整体数据进行分析。Google pla

2020-08-10 09:42:52 6445 1

原创 Mysql- 交易失败之后首次交易成功的间隔 - 按用户取平均

看了很多用lead函数写两次交易（或者其他操作）之间的时间间隔，但是如果两次行为不一致的话就不太好直接取lead相减了。这里写了个join的方法，不知道有没有可以不用到join的办法来解答呢~目的是：7.18的fail交易，下一次是在7.20成功。假设我们取一个用户来看（多个用户按用户分组就完事了）7.19的fail交易，下一次也是在7.20交易成功。那么平均间隔就是 (2+1)/2 = 1.5。中间的子查询是这样的表。

2023-08-11 14:45:44 118

原创 Pandas 日期时间列里删除时间，只保留日期

提醒自己不要用dt.date踩过的坑很可能转换完格式之后不对筛选不出来 - 虽然我也不知道为什么首先这是我们的raw_data可以看到这列是日期 + 时间的格式现在我想把日期和时间分开用pandassample_event['Install_date'] = pd.to_datetime(sample_event['Install Time'])sample_event['Install_date'] = sample_event['Install_date'].apply(lambd

2021-11-04 16:10:38 4251 1

原创 The Monty Hall problem - 三门问题个人超简单角度的理解

在复习MITx 6.431x概率论这门课的时候，发现一个很有趣的问题，叫Monty Hall problem，出自美国电视节目Let’s Make a Deal.问题的场景：节目提供了三扇门，门后有羊或者汽车，一共两只羊，一辆汽车。幸运观众先随机选择一扇门，主持人会在剩下的两个门中打开一扇门，且这扇门后必然是羊如果想赢得汽车，幸运观众应该保持自己的选择，还是选择换另一扇门？我的第一个反映和很多人一样，我认为既然已经排除了一扇背后是羊的门，那么在剩下两扇门中，背后的汽车的概率都是1/2。但是

2021-10-20 19:53:11 2075

原创 Pandas 实现excel类似vlookup 的匹配功能 (apply, merge, join)

Excel的vlookup功能在数据量太大的前提下就挺难用的，所以还是需要pandas搞定下面是用pandas实现匹配的方法如下图，假如我有一个表全是印尼文 A有另一张在google sheet上翻译出来的表 B现在我想匹配第一张表 category1_name 的英文版本1. dict + apply 我觉得最好的方法首先将翻译的那张表转成字典形式import pandas as pddict1 = dict(zip(trans['Indonesian'],trans['Engli

2021-08-09 14:46:50 7728 3

原创 Pandas在groupby中保留所有字段 - transform用法

比如说我现在有一些数据，商品id和商品名称不是一一对应的，但是实际上是一个商品，只是略微改了名称现在我的目的是计算每个商品的销售量，销售额，因为商品名称有略微改变，所以我直接保存第一次出现的商品名称，使得每个商品只有一条数据以防报警告我先复制一下samplecopy = sample.copy()现在我们对sample按照sku_id进行聚合，得到的volume和value是我们最终想要的，我们把这个volume和value直接transform到copy后的数据中，得到这样的数据然后我们可

2021-07-28 09:11:43 3127

原创 Pandas分组(groupby)迭代合并输出 - 选取当前行之前的最大值

需求：添加一列，对每一个商品选取在当前日期之前，sold_volme最大值首先添加这个列，辅助赋值import pandas as pdimport numpy as npsample['greatest_volume'] = 0然后创建分组grouped_sample = sample.groupby('sku_name')创建一个空的dataframedf = pd.DataFrame()接下来用for循环，先遍历每一个group，然后在每一个group里面操作，最后合并

2021-07-27 16:04:02 571

EvaHoo的博客