记录一些数据分析用到的函数
1.groupby
df.groupby([df[属性],df[属性])(指分类的属性,数据的限定定语,可以有多个).mean()(对于数据的计算方式——函数名称)
trn_click['rank'] = trn_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False).astype(int)
tst_click['rank'] = tst_click.groupby(['user_id'])['click_timestamp'].rank(ascending=False).astype(int)
2.merge
merge函数参数表格
merge(left,right,how='inner',on=None,left_on=None,right_on=None,
left_index=False,right_index=False,sort=False,suffixes=
('_x','_y'),copy=True,indicator=False,validate=None)
本baseline用到trn_click = trn_click.merge(item_df, how='left', on=['click_article_id'])
3.describe
describe会返回一系列参数,count,mean,std,min,25%,50%,75%,max。
describe()返回值的解释如下:
- count:返回数组的个数,如上述为4个元素,所以返回为4;
- mean:返回数组的平均值,1 3 5 9的平均值为4.5;
- std:返回数组的标准差;
- min:返回数组的最小值;
- 25%,50%,75%:返回数组的三个不同百分位置的数值,也就是统计学中的四分位数,其中50%对应的是中位数。
- max:返回列表的最大值。
4.nunique()
Pandas nunique() 用于获取唯一值的统计次数。
#训练集中的用户数量为20w
trn_click.user_id.nunique()
5.reset_index()
数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。
记录时间:2020年11月27日,会持续更新。