契机
从样本和模型两方面来介绍向量级别召回模型的由来。提出很有建设性的工业级别的参考价值。
样本角度
有监督的二分类模型需要构建正负样本,正样本的选择不管是召回和排序来说都是一致的,即用户有显式的点击行为的样本为正样本。而对于召回模型(甚至对于粗排模型)来说,负样本的选择至关重要,如下会介绍正样本的构建方法和两种级别的负样本构建方法。
正样本抽样
有些item在用户显式点击反馈中出现的次数过高,这会导致召回模型会被这些item绑架,因而需要对用户显式点击反馈中的item进行抽样,被抽到的概率为如下公式,其中 Z ( w i ) Z(w_i) Z(wi)代表item在整个item库中出现的频次。
P p o s = ( Z ( w i ) 0.001 + 1 ) 0.001 Z ( w i ) P_{pos}=(\sqrt{\frac{Z(w_i)}{0.001}}+1)\frac{0.001}{Z(w_i)} Ppos=(0.001<

本文探讨了向量级别召回模型的来源,重点在于样本构造和模型设计。正样本采用概率抽样策略,避免热门item过度影响模型。负样本分为easynegative和hardnegative,前者为模型易于识别的负例,后者则更具挑战性。模型融合策略包括并行和串行方式。曝光未点击样本并不适合用于负样本,因为它们可能只是用户未偏好而非不喜欢。
最低0.47元/天 解锁文章
189

被折叠的 条评论
为什么被折叠?



