推荐系统的多样性总结

Weiyaner

已于 2022-04-02 17:19:50 修改

阅读量5.3k

点赞数 1

分类专栏：推荐系统与机器学习文章标签：推荐算法推荐系统多样性

于 2022-04-02 14:39:05 首次发布

本文链接：https://blog.csdn.net/weixin_42327752/article/details/123919143

版权

推荐系统与机器学习专栏收录该内容

13 篇文章

订阅专栏

文章目录

1 推荐系统为何需要多样性
2 多样性类型
3 多样性评价指标
4 如何改进多样性
不同用户的多样性需求分析

推荐系统的多样性反应了一个推荐列表中内容不相似的程度。通过推荐多样性更高的内容，既能够给用户更多的机会去发现新内容，也能够让推荐系统更容易发现用户潜在的兴趣。

需要注意的是，精确性和多样性是一对Trade Off，提升多样性的代价往往以牺牲准确性为代价，因此如何平衡准确性和多样性是一个需要权衡的地方，或者从另一个角度讲如何在短期目标和长期目标间做平衡。

1 推荐系统为何需要多样性

在推荐系统中，一般主要关注于对用户的兴趣进行建模，推送其兴趣相似的items，这就导致了：

相似内容扎堆，影响用户体验，过于乏味
造成“信息茧房”，用户获取信息面过窄，信息为0.
兴趣宽泛或者表达不明确的用户体验差

多样性一般不作为建模目标，但是通过实践也证明了多样性的提升可以帮助提升时长、点击、用户长期留存等核心业务指标，这些通常需要A/B实验来确定多样性策略的优劣。

2 多样性类型

推荐多样性类型包括个体多样性、总体多样性、时序多样性。
在这里插入图片描述

个体多样性
个体多样性从单个用户的视角衡量推荐的多样性，考察系统能够找到用户喜欢的冷门项目的能力。
个体水平的多样性反映了推荐列表包含的主题数量以及推荐项目在不同主题上分布的均衡性。
系统多样性
系统多样性主要强调针对不同用户的推荐应尽可能的不同。也就是所谓的"千人千面"。低系统级别的多样性意味着总是向所有用户推荐热门项目，而忽略长尾项目。因此，系统多样性也被称作长尾推荐。
时序多样性
时序多样性是指用户兴趣的动态进化或者用户情景的时变，即与过去的推荐相比，新的推荐体现出的多样性。

评价一个推荐系统的多样性可以从以上三个维度考量。

3 多样性评价指标

1、ILS(intra-list similarity)

ILS主要是针对单个用户，一般来说ILS值越大，单个用户推荐列表多样性越差。ILS主要是针对单个用户，一般来说ILS值越大，单个用户推荐列表多样性越差。
$\operatorname{ILS}(R)=\frac{2}{k(k-1)} \sum_{i \in j \neq i \in R} \sum_{R} \operatorname{Sim}(i, i)$
其中， $i$ 和 $j$ 为Item， $k$ 为推荐列表长度， $\operatorname{Sim}(.)$ 为相似性度量。

2、海明距离(Hamming distance)

$H_{i j}=1-\frac{Q_{i j}}{L}$
其中， $L$ 为推荐列表长度， $Q_{i j}$ 为系统推荐给用户 $i$ 和 $j$ 两个推荐列表中相同Item的数量。 $H_{i j}$ 衡量了不同用户间的推荐结果的差异性，其值越大说明不同用户间的多样性程度越高。

3、SSD (self-system diversity)

SSD指推荐列表中没有包含在以前的推荐列表中的比例，主要考崇推荐结果的时序多样性。
$\operatorname{SSD}(R \mid u)=\frac{\left|R / R_{t-1}\right|}{|R|}$
其中， $R_{t-1}$ 是 $R$ 的上一次推荐， $R_{t-1}=\left\{x \in R \mid x \notin R_{t-1}\right\}$ 。SSD值越小，推荐列表的时序多样性越好。

4、覆盖率 (coverage)

覆盖率是推荐给用户的Item占所有Item的比例，用来衡量对长尾Item的推茯能力。

5、K 次重复率
在一次推荐请求中，同一类别的Item连续出现 $K$ 次的比率。

6、Hellinger距离

通过计算生成的topK结果的多样性分布和理想的多样性分布之间的Hellinger距离，来衡量top K 结果多样性的好坏。
$Q)=\frac{1}{\sqrt{2}} \sqrt{\sum_{i=1}^{k}\left(\sqrt{p_{i}}-\sqrt{q_{i}}\right)^{2}} .$
其中， $P=\left(p_{1}, p_{2}, \ldots, p_{k}\right)$ 和 $Q=\left(q_{1}, q_{2}, \ldots, q_{k}\right)$ 为离散概率分布。