Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations

论文针对双塔结构的推荐系统,提出了新的算法来解决因采样偏差导致的模型效果不佳问题。通过流式频率估计和修正的交叉熵损失,该算法能无偏差地预估物品概率并适应候选集分布变化,尤其适用于大规模物品库和稀疏反馈数据。此外,还介绍了模型架构,包括如何处理热门物品的采样偏见,以及在线应用中的最近邻搜索和归一化策略。
摘要由CSDN通过智能技术生成

Time: September 2019

Author: Xinyang Yi, Ji Yang, Lichan Hong, Derek Zhiyuan Cheng, Lukasz Heldt, Aditee Kumthekar, Zhe Zhao, Li Wei, Ed Chi

 

Abstract

工业界目前训练双塔结构一般是通过随机mini-batch的方式来优化损失函数(in-batch negatives)。这种训练方式存在一个显著问题就是in-batch loss会因为随机采样偏差而导致模型效果不好,尤其是当样本分布出现明显倾斜的时候。这篇论文提出一种全新的算法,可以从流式数据中预估item的概率,新算法有能力在不知道候选集全部的词典情况下做出无偏差的估计并且可以自适应候选集分布的变化。

 

Introduction

双塔模型

基于{user, context, item},1)使用{user, context}学习user representation,使用{item}学习item representation 2)使用dot product得到给user的个性化推荐。在representation学习中,面临两个问题:1)商品库非常大 2)因为用户对于大部分商品的反馈结果是非常稀疏的,所以对于长尾内容的预测不是很准确。

双塔模型训练时,对于每一个正样本,需要采样一些负样本,所以当物品量非常大的时候ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值