1.卡方检验
卡方检验文本特征选择-jiangwen127-ChinaUnix博客blog.chinaunix.net 特征选择 (feature_selection)www.cnblogs.com2.pandas.get_dummies 的用法
利用pandas实现one hot encode的方式
pandas.get_dummies - pandas 0.24.2 documentationpandas.pydata.org![f2563131676131877942ce46dbeef013.png](https://i-blog.csdnimg.cn/blog_migrate/4f1706bad59eeb0720d0eb0eab89f442.png)
用法
3.drop_duplicates()去重
![90a462981a55b23362d782ec006d3ae7.png](https://i-blog.csdnimg.cn/blog_migrate/c17f021db1dba081487c97d83f43a6dc.jpeg)
4.df=df.drop([col1, col2], axis=1),用于去除某一列
5.groupby的as_index=False
actions1 = actions1.groupby(['user_id'], as_index=False).sum().add_prefix('user_id_')
as_index=False可使userid不作为索引项出现,即不在需要进行reset_index()的操作。
add_prefix可使聚合后的列名加前缀。
ps:列名的重命名:a.rename(columns={'A':'a', 'B':'b', 'C':'c'}, inplace = True)
6. 按照某列进行排序
active_last = active_last.sort_values(by='action_time', ascending=False)
ascending=True代表升序,false代表降序。
7.pop可以使所选列从原数据块弹出m,原数据块不包含此列。
_ = shop_info.pop('shop_reg_tm')