ID类特征使用小结

如何使用ID类特征

ID类特征在搜索、推荐、计算广告等领域里有大量的应用。

如何使用:

ID类特征在预测中的命中率可能并不高,但这其实也不是问题。因为一个特征就是一个体系,**一个体系化的特征是通过层次化的特征设计来达到命中率和个性化的综合。**通过分层的、由细粒度到粗粒度的特征搭配来保证特征命中率。
比如说在电商领域中设计一个体系化的特征来表示一个商品:商品id->店铺id->商品类目->商品品牌->属性,从左到右从个性化特征到泛化特征。
在这里插入图片描述
对于长尾商品和新的商品,泛化特征起主要作用。对热门商品,个性化特征起主要作用。

样本构建:

ID类特征上的信号是极其稀疏的,这意味着需要大量的数据。在搜索、推荐、计算广告等领域,单个id上搜集的数据是比较多的。使用的时候按出现频率倒排的方式筛选,比如在整体样本里出现频率过低的id直接丢掉当做缺失处理。

过拟合问题:

ID类特征容易过拟合,训练的过程中一定要通过正则的方法来限制。L1正则,稀疏一下,真正进模型有权重的id并不会很多。

适用模型:

LR是非常适合使用ID类特征的,原因在于LR适合接受超高维的特征输入。对NN模型来说,需要通过Embedding的方式进行使用。

Reference:
Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值