Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations

最新推荐文章于 2024-03-31 22:37:37 发布

ChristineC_

最新推荐文章于 2024-03-31 22:37:37 发布

阅读量1.3k

点赞数 1

分类专栏： Recommendation System

本文链接：https://blog.csdn.net/ChristineC_/article/details/105412139

版权

论文针对双塔结构的推荐系统，提出了新的算法来解决因采样偏差导致的模型效果不佳问题。通过流式频率估计和修正的交叉熵损失，该算法能无偏差地预估物品概率并适应候选集分布变化，尤其适用于大规模物品库和稀疏反馈数据。此外，还介绍了模型架构，包括如何处理热门物品的采样偏见，以及在线应用中的最近邻搜索和归一化策略。

摘要由CSDN通过智能技术生成

Time: September 2019

Author: Xinyang Yi, Ji Yang, Lichan Hong, Derek Zhiyuan Cheng, Lukasz Heldt, Aditee Kumthekar, Zhe Zhao, Li Wei, Ed Chi

Abstract

工业界目前训练双塔结构一般是通过随机mini-batch的方式来优化损失函数（in-batch negatives）。这种训练方式存在一个显著问题就是in-batch loss会因为随机采样偏差而导致模型效果不好，尤其是当样本分布出现明显倾斜的时候。这篇论文提出一种全新的算法，可以从流式数据中预估item的概率，新算法有能力在不知道候选集全部的词典情况下做出无偏差的估计并且可以自适应候选集分布的变化。

Introduction

双塔模型

基于{user, context, item}，1）使用{user, context}学习user representation，使用{item}学习item representation 2）使用dot product得到给user的个性化推荐。在representation学习中，面临两个问题：1）商品库非常大 2）因为用户对于大部分商品的反馈结果是非常稀疏的，所以对于长尾内容的预测不是很准确。