关于wide&deep的再思考

如果一个item在全局上被点击(或其他正反馈行为)次数过少,在排序侧把item id粒度特征直接喂入dnn做embedding,由于样本量过少,此类稀疏id特征对应的模型参数很难收敛。

干脆把item id这个field的embedding size调小呢?看似解决了稀疏特征参数收敛的问题,但却引来了新的问题:对于有充足正反馈的那部分id来说,需要用较大容量的隐向量表达语义,现在embedding size被调小了,显然限制了这部分id特征的表达。

如果此时把id特征只放到wide&deep的lr侧,用于记忆历史行为呢?同样地,这对有充足正反馈的那部分id也不公平。

问题本质上,是为每一维特征量身定制embedding size的问题。

我们知道,决定embedding size的主要因素有两个: 特征信息容量和特征稀疏度*样本量。

如何获得每维特征的最佳embedding size呢?

微信公众号:world2vec

欢迎关注

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值