sum 去重_数据竞赛学习(一)--去重,特征one_hot,drop,排序

1.卡方检验

卡方检验文本特征选择-jiangwen127-ChinaUnix博客​blog.chinaunix.net 特征选择 (feature_selection)​www.cnblogs.com

2.pandas.get_dummies 的用法

利用pandas实现one hot encode的方式

pandas.get_dummies - pandas 0.24.2 documentation​pandas.pydata.org

f2563131676131877942ce46dbeef013.png

用法

3.drop_duplicates()去重

90a462981a55b23362d782ec006d3ae7.png

4.df=df.drop([col1, col2], axis=1),用于去除某一列

5.groupby的as_index=False

actions1 = actions1.groupby(['user_id'], as_index=False).sum().add_prefix('user_id_')

as_index=False可使userid不作为索引项出现,即不在需要进行reset_index()的操作。

add_prefix可使聚合后的列名加前缀。

ps:列名的重命名:a.rename(columns={'A':'a', 'B':'b', 'C':'c'}, inplace = True)

6. 按照某列进行排序

active_last = active_last.sort_values(by='action_time', ascending=False)

ascending=True代表升序,false代表降序。

7.pop可以使所选列从原数据块弹出m,原数据块不包含此列。

_ = shop_info.pop('shop_reg_tm')

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值