【数据竞赛】学特征工程就看这篇,解析IJCAI18亚军方案之特征工程

1  搜索竞赛特征工程总结

很多搜索推荐的工业界大模型的特征工程核心可以分为用户侧商品侧还有一些其他侧(一些i2i,u2i等的上游特征)三大类。

本篇文章,不考虑所有时间等因素,直接调研和搜索相关的竞赛,并对其特征和模型训练技巧进行总结。

  • 如果是count特征,我们的[XXX]就直接省略

2  单阶特征

2.1  User侧特征

2.1.1  User单阶特征:groupby(user)[XXX]

  1. user + [time]: 相邻时间戳的最小/最大/均值/中位数(min/max/mean/median(time_diff)), 当前时间与最早一次/最近上一次时间的差值, 与最后一次/最近下一次时间的差值;

    反映用户的活动频繁度

  2. user + [query/item/...]:搜索不同query的次数,商品数,... nunique(query/item/shop/brand/city)

    反映用户的兴趣是否宽泛

  3. user + [istrade]: 用户连续未购买商品数,用户连续未购买次数; 用户购买的item数和未购买的商品/商店数,以及二者的比例.

    用户的近期购买兴趣,仅仅是为了看商品,还是希望买商品


2.2  Item侧特征

2.2.1  Item/shop/brand...单阶特征:groupby(item)[XXX]

  1. item/shop/brand + [buy]: 商品过去每天的曝光次数(count),被购买次数(buysum)

  2. item/shop/brand + [time & buy]: 商品过去一段时间购买的趋势特征(后一天与前一天的购买比例/曝光比例);

  3. item/shop/brand + [time & buy]: 商品第一次被购买的时间与商品第一次曝光的时间差;

  4. item/shop/brand + [time & price/score...]: item近期商品属性的变化,例如price/星级/好评等.(mean,std,val-mean)

2.2.2  Item的内部组合特征

  1. Item在shop/city/country/brand/query下的点击率/购买率排名;

  2. shop在brand/city/country/query下的点击率/购买率排名;

  3. brand在city/query下的点击率/购买率排名;

  4. cate在city下的点击率/购买率排名;

3  组合特征

3.1  User+Query特征(二阶/高阶):groupby(user+query+other)[XXX]

同一个user在Query侧的特征(滑窗)

  1. user + query, (之前/之后)有几次相同的值(count/ratio),(之前/之后)有几次不相同的值(count/ratio)

    此处的ratio为count再除以user+query的前后的count

  2. user + query + item/shop/brand/city/context_page_id特征, (之前/之后)有几次相同的值(count/ratio)

  3. user + query + item_category_list特征, (之前/之后)有几次相同的值(count/ratio)

  4. user + query + [time]: 相同query最小/最大时间(min(time))

  5. user + query + [item/shop]: 在该query之前/之后用户访问的item/shop数目

3.2  User + Item特征(二阶/高阶):groupby(user+item+other)[XXX]

  1. user + item + [predict_category_property/query/...],(之前/之后)有几次不同的值(nunqiue)

  2. user + shop + [predict_category_property/query/...],(之前/之后)有几次不同的值(nunqiue)

  3. user + brand + [predict_category_property/query/...],(之前/之后)有几次不同的值(nunqiue)

  4. user + city + [predict_category_property/query/...],(之前/之后)有几次不同的值(nunqiue)

  5. user + item/: 用户在之前之后点击了多少价格更低的商品,销量更高的商品,评价数更多的店铺,好评率高的店铺,星级高的店铺,服务态度高的店铺,物流好的店铺,描述评分高的店铺

4  特征重要性

5  小结

  1. 从特征重要性看,除去一些基础特征和穿越特征(例如next diff等),Query相关的特征占比非常大;而且从答辩PPT看来,Query相关的特征也是帮助最大的一波,而这在大模型模块是可以重点参考的;

  2. 第二部分是rank相关的特征(某个item在某个品牌下的销量排名等),该部分特征是方案中提升很大的另一部分;

6  参考文献

  1. IJCAI-18亚军分享:https://tianchi.aliyun.com/forum/postDetail?postId=5311

  2. IJCAI-18亚军特征重要性:https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution/blob/master/file/fea_importance.csv

  3. 答辩PPT:https://tianchi.aliyun.com/forum/postDetail?spm=5176.12586969.1002.9.6d0a48c58rjez0&postId=5311

往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群请扫码进群:
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值