Time: September 2019
Author: Xinyang Yi, Ji Yang, Lichan Hong, Derek Zhiyuan Cheng, Lukasz Heldt, Aditee Kumthekar, Zhe Zhao, Li Wei, Ed Chi
Abstract
工业界目前训练双塔结构一般是通过随机mini-batch的方式来优化损失函数(in-batch negatives)。这种训练方式存在一个显著问题就是in-batch loss会因为随机采样偏差而导致模型效果不好,尤其是当样本分布出现明显倾斜的时候。这篇论文提出一种全新的算法,可以从流式数据中预估item的概率,新算法有能力在不知道候选集全部的词典情况下做出无偏差的估计并且可以自适应候选集分布的变化。
Introduction
双塔模型
基于{user, context, item},1)使用{user, context}学习user representation,使用{item}学习item representation 2)使用dot product得到给user的个性化推荐。在representation学习中,面临两个问题:1)商品库非常大 2)因为用户对于大部分商品的反馈结果是非常稀疏的,所以对于长尾内容的预测不是很准确。
双塔模型训练时,对于每一个正样本,需要采样一些负样本,所以当物品量非常大的时候ÿ