类似用户画像预测的特征工程技巧总结

一 情景
给定一批原始训练数据,这些数据有各个用户(user_id)多条历史记录。根据这些原始训练数据预测当中的部分或全部的用户(user_id)的可能行为。例如识别羊毛党项目:http://www.dcjingsai.com/common/cmpt/2018年甜橙金融杯大数据建模大赛_赛体与数据.html

二 类似问题的特征工程技巧总结
单特征处理(统计单特征)
1 对于离散特征单特征处理时,引出”广义特征”概念
例如:交易类型这个离散特征,交易类型有"01",“02”,“03"三种,某一UID在历史数据集中"01"有16次,“02"有0次,“03"有45次,那么这个UID的"广义交易类型"就为"160045”(可对交易次数分段再编码以减少类型)。
还有count,nunque,max_val(比如出现次数最多的值),min_val
2 对于连续值特征单特征处理时,某个UID的对应特征可通过统计这个UID这个特征历史数据的sum,mean,max,min,media,nunique,count等来代表这个单特征。
组合特征处理
一般情况是UID与某一离散特征以及另外一个连续特征的组合。
例如:card_id、city_id与purchase_amount的组合,其中card_id是被描述对象。组合不同卡在不同城市的购买情况特征。
t = df.groupby([“card_id”, “city_id”])[“purchase_amount”].mean()
u=pd.DataFrame(t).reset_index().groupby(“card_id”)[“purchase_amount”].agg([“mean”, “min”, “max”])
u.columns = [“city_id”+“purchase_amount”+”_”+ col for col in u.columns.values]
u = u.reset_index()
其他特征处理,比如时间特征等根据实际数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值