Python数据分析常用的函数，比如：groupby、merge...等

最新推荐文章于 2024-06-03 22:55:15 发布

全网同名：代码界的小白

最新推荐文章于 2024-06-03 22:55:15 发布

阅读量502

点赞数

分类专栏： # 2020年CCF数据科学竞赛机器学习比赛分享文章标签：数据分析 python 机器学习

本文链接：https://blog.csdn.net/weixin_42305672/article/details/110247522

版权

机器学习比赛分享同时被 2 个专栏收录

11 篇文章 4 订阅

订阅专栏

2020年CCF数据科学竞赛

8 篇文章 8 订阅

订阅专栏

记录一些数据分析用到的函数

1.groupby

df.groupby([df[属性],df[属性])(指分类的属性，数据的限定定语，可以有多个).mean()(对于数据的计算方式——函数名称)

trn_click['rank'] = trn_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False).astype(int)
tst_click['rank'] = tst_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False).astype(int)

2.merge
merge函数参数表格

merge(left,right,how='inner',on=None,left_on=None,right_on=None,
left_index=False,right_index=False,sort=False,suffixes=　　 
('_x','_y'),copy=True,indicator=False,validate=None)

在这里插入图片描述
本baseline用到trn_click = trn_click.merge(item_df, how='left', on=['click_article_id'])

3.describe

describe会返回一系列参数，count，mean，std，min，25%，50%，75%，max。

describe()返回值的解释如下：

count：返回数组的个数，如上述为4个元素，所以返回为4；
mean：返回数组的平均值，1 3 5 9的平均值为4.5；
std：返回数组的标准差；
min：返回数组的最小值；
25%，50%，75%：返回数组的三个不同百分位置的数值，也就是统计学中的四分位数，其中50%对应的是中位数。
max：返回列表的最大值。

4.nunique()
Pandas nunique() 用于获取唯一值的统计次数。

#训练集中的用户数量为20w
trn_click.user_id.nunique()

5.reset_index()
数据清洗时，会将带空值的行删除，此时DataFrame或Series类型的数据不再是连续的索引，可以使用reset_index()重置索引。
在这里插入图片描述

记录时间：2020年11月27日，会持续更新。

全网同名：代码界的小白

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录