Embedding前沿了解

内容来自 https://mp.weixin.qq.com/s/j34nJGomvR23ZJiqIFMoAQ

Q:海量稀疏特征,如何找到好的特征 Embedding 表达方式?
(1)对于序列行为中的 Item Embedding,拥有怎样性质的 Embedding 表达方式是较好的?
(2)对于非行为序列的推荐模型,关于特征 Embedding,大家常规采用的做法是:将特征的 Embedding Size 作为超参,通过手工测试来寻找好的 Embedding 大小。然而,是否有更好的方式?

A1:Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling。
Res-embedding 首先在理论上证明了:神经网络 CTR 模型的泛化误差与 Item 在 Embedding 空间的分布密切相关,如果用户兴趣相近的各 Item,在 Embedding 空间中的 envelope 半径越小,也就是说,相同兴趣 Item 之间在 embedding 空间中越紧致,形成的簇半径越小,则模型泛化误差越小,也就是模型的泛化能力越好。这个结论是很有意义的。因为可以用这一结论,在训练过程中约束 Item Embedding,让其满足一定条件,以此来增加模型能力。在此结论基础上,Res-embedding 提出了一个较为通用的方法:对于相近用户兴趣的 Item Embedding,我们让它由两部分叠加构成,一个是属于这个兴趣内的所有 Item 共享的兴趣中心 Central Embedding,另外一个是 Item 自身的残差 Residual Embedding
在这里插入图片描述
A2:Neural Input Search for Large Scale Recommendation Models(NIS)。
先设想一个比较完美的特征 Embedding 分配方案,如果它存在,应该是这个样子的:对于高频出现的特征,能够分配给它较长的 Embedding 大小,使其能更充分地编码和表达信息。而对于低频的特征,则希望分配较短的 Embedding,因为对于低频特征,它在训练数据中出现次数少,如果分配了较长的 Embedding,更容易出现过拟合现象,影响模型泛化性能。而对于那些极低频的特征,基本学不了什么知识,反而会带来各种噪音,那么我们可以不分配或者让它们共享一个公有 Embedding 即可。图中 © 方案的决策或者搜索空间有多大,很明显每一步有 5 种选择,有 4 个决策步骤,所以决策空间大小为 5 的 4 次方,就是说有这么多种分配方案,而 ENAS 通过某个分配方案在验证集数据下的 AUC 评价指标表现,以及方案耗费 Embedding 空间大小,来评估每个决策方案的优劣程度。我们肯定是鼓励验证集合指标表现好,耗费空间少的方案,而强化学习的 Reward 就是这个思路来设计的。通过这种模式,即可设计强化学习方案来寻找出最优的 Embedding 方案。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值