Embedding前沿了解

最新推荐文章于 2024-03-18 19:27:59 发布

thinker_1120

最新推荐文章于 2024-03-18 19:27:59 发布

阅读量1k

点赞数

分类专栏：论文新探索

本文链接：https://blog.csdn.net/cymy001/article/details/106431127

版权

论文新探索专栏收录该内容

3 篇文章 0 订阅

订阅专栏

内容来自 https://mp.weixin.qq.com/s/j34nJGomvR23ZJiqIFMoAQ

Q：海量稀疏特征，如何找到好的特征 Embedding 表达方式？
（1）对于序列行为中的 Item Embedding，拥有怎样性质的 Embedding 表达方式是较好的？
（2）对于非行为序列的推荐模型，关于特征 Embedding，大家常规采用的做法是：将特征的 Embedding Size 作为超参，通过手工测试来寻找好的 Embedding 大小。然而，是否有更好的方式？
A1：Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling。
Res-embedding 首先在理论上证明了：神经网络 CTR 模型的泛化误差与 Item 在 Embedding 空间的分布密切相关，如果用户兴趣相近的各 Item，在 Embedding 空间中的 envelope 半径越小，也就是说，相同兴趣 Item 之间在 embedding 空间中越紧致，形成的簇半径越小，则模型泛化误差越小，也就是模型的泛化能力越好。这个结论是很有意义的。因为可以用这一结论，在训练过程中约束 Item Embedding，让其满足一定条件，以此来增加模型能力。在此结论基础上，Res-embedding 提出了一个较为通用的方法：对于相近用户兴趣的 Item Embedding，我们让它由两部分叠加构成，一个是属于这个兴趣内的所有 Item 共享的兴趣中心 Central Embedding，另外一个是 Item 自身的残差 Residual Embedding。
在这里插入图片描述
A2：Neural Input Search for Large Scale Recommendation Models（NIS）。
先设想一个比较完美的特征 Embedding 分配方案，如果它存在，应该是这个样子的：对于高频出现的特征，能够分配给它较长的 Embedding 大小，使其能更充分地编码和表达信息。而对于低频的特征，则希望分配较短的 Embedding，因为对于低频特征，它在训练数据中出现次数少，如果分配了较长的 Embedding，更容易出现过拟合现象，影响模型泛化性能。而对于那些极低频的特征，基本学不了什么知识，反而会带来各种噪音，那么我们可以不分配或者让它们共享一个公有 Embedding 即可。图中 © 方案的决策或者搜索空间有多大，很明显每一步有 5 种选择，有 4 个决策步骤，所以决策空间大小为 5 的 4 次方，就是说有这么多种分配方案，而 ENAS 通过某个分配方案在验证集数据下的 AUC 评价指标表现，以及方案耗费 Embedding 空间大小，来评估每个决策方案的优劣程度。我们肯定是鼓励验证集合指标表现好，耗费空间少的方案，而强化学习的 Reward 就是这个思路来设计的。通过这种模式，即可设计强化学习方案来寻找出最优的 Embedding 方案。
在这里插入图片描述