向量召回
采样
正样本采样-按热度降采样
P
p
o
s
(
t
)
=
(
z
(
t
)
a
+
1
)
∗
a
z
(
t
)
P_{pos}(t)=(\sqrt{\frac{z(t)}{a}}+1)* \frac{a}{z(t)}
Ppos(t)=(az(t)+1)∗z(t)a
z
(
t
)
=
点击过
t
的用户数
所有发生过点击行为的用户总数
z(t)=\frac{点击过t的用户数}{所有发生过点击行为的用户总数}
z(t)=所有发生过点击行为的用户总数点击过t的用户数
a
a
a是一个超参,一般在1e-3~1e-5之间。
负样本采样-按热度过采样
loss
Point-NCE
Point-Sampled Sofxmax loss
Pair-hinge loss
Pair-BPRloss
List-RankNet
List-ListNet
理论
为什么说,用物料的后验消费数据做召回存在“幸存者偏差”?能将这些消费数据用于排序吗?
用来召回和排序的物料是那些已经被用户看到并产生了互动的物料。这种方法忽略了那些可能同样有吸引力但未被用户看到的物料。
使用物料的后验消费数据做召回,会放大“马太效应”,对新物料不友好,如何缓解?
使用物料的后验消费数据做召回确实可能会放大“马太效应”(Matthew Effect),即“富者愈富,穷者愈穷”的现象,在推荐系统中表现为热门物料越来越热门,而新物料或者冷门物料难以被发现。
-
冷启动策略:对于新加入系统的物料,采用特殊的冷启动策略,如基于内容的推荐(使用物料的属性信息做推荐),或者通过小范围的推广活动收集初步的用户反馈数据来提高其在推荐系统中的出现概率。
-
多样性增强:在推荐列表中有意识地增加物料的多样性,防止过度集中在少数热门物料上。这不仅可以为用户提供更丰富的选择,也能给新物料或冷门物料更多的曝光机会。
-
个性化推荐:利用用户的个性化信息进行推荐,而不是单纯依赖物料的全局热度。通过分析用户的历史行为、喜好特征等信息,为其推荐可能感兴趣的新物料或冷门物料。
-
带权重的后验消费数据:调整后验消费数据的权重,给予新物料或冷门物料更高的权重。这可以通过时间衰减函数、用户反馈显式评分或其他加权因子来实现,目的是调整物料在推荐系统中的排序权重,使新物料有更多被发现的机会。
-
使用先验知识:结合行业专家的知识或利用相似物料的数据来推荐新物料。比如,对于刚上线的影视作品,可以根据导演、演员、题材相似度等因素,推测其潜在的受众群体并给予推荐。