构造特征
特征构造提取的过程对于每一种比赛都不一样,如果需要更多的启发的思维,建议搜索大量别人怎么从各种角度思考的资料。
这部分最考验pandas的使用和code能力
以下为阿里算法大赛的一个简单参考:
大致按照这个思路,列出要提取的特征。
1.商户相关:
sales_use_coupon. total_coupon
transfer_rate = sales_use_coupon/total_coupon.
merchant_avg_distance,merchant_min_distance,merchant_max_distance of those use coupon total_sales. coupon_rate = sales_use_coupon/total_sales.
2.优惠券相关:
discount_rate. discount_man. discount_jian. is_man_jian
day_of_week,day_of_month. (date_received)
3.用户相关:
distance.
user_avg_distance, user_min_distance,user_max_distance.
buy_use_coupon. buy_total. coupon_received.
buy_use_coupon/coupon_received.
avg_diff_date_datereceived. min_diff_date_datereceived. max_diff_date_datereceived.
count_merchant.
4.用户-商户协同特征:
用户之前在商户的购买次数
- 其他特征:
这个月用户收到的总优惠卷数量
这个月用户收到相同的优惠券数量
这个月对于相同优惠券用户收到的时间是不是最早时间或最晚时间
这一天中用户收到的总优惠卷数量
这一天中用户收到的相同优惠卷数量
day_gap_before, day_gap_after (receive the same coupon)
这里程序仅显示对于dataset3的处理,1和2处理类似。