《推荐系统实践》第一章好的推荐系统读书笔记

最新推荐文章于 2024-06-10 14:48:33 发布

飞锡2024

最新推荐文章于 2024-06-10 14:48:33 发布

阅读量583

点赞数

分类专栏：机器学习文章标签：自然语言处理 big data 人工智能

本文链接：https://blog.csdn.net/weixin_38235865/article/details/120112888

版权

机器学习专栏收录该内容

29 篇文章 3 订阅

订阅专栏

推荐系统是解决信息过载问题的有效工具，它无需用户明确需求，通过分析用户行为建模来推荐个性化信息。主要方法包括协同过滤（用户/物品基域）、基于内容的推荐和矩阵分解等。推荐系统的主要任务是连接用户和信息，同时服务于用户和信息提供者。评测指标涵盖用户满意度、预测准确度、覆盖率、多样性、新颖性、惊喜度、信任度、实时性、健壮性和商业目标。优化推荐系统需综合考虑离线和在线指标，以及不同维度的评测。

摘要由CSDN通过智能技术生成

推荐系统的方法
按照数据分：协同过滤、内容过滤、社会化过滤
按照算法分: 基于邻域、基于图、基于矩阵分解、概率模型

好的推荐系统

推荐系统的主要任务、推荐系统和分类目录以及搜索引擎的区别等

背景

随着信息过载，有目的的购买东西方式变化过程：
凭借经验----》凭借分类信息—》凭借搜索信息

没有明确的需求:
推荐系统

信息过载问题的解决方案：分类目录和搜索引擎

分类目录：只能覆盖少量热门网站，越来越不能满足用户需求

搜索引擎：需要用户主动提供准确的关键词来寻找信息，当用户无法找到准确描述自己需求的关键词，就无能为力了

什么是推荐系统？

推荐系统是一种帮助用户快速发现有用信息的工具

搜索引擎与推荐系统区别

同：帮助用户发现感兴趣的内容
异：推荐系统不需要用户提供明确的需求，而是通过分析用户的历史行为给用户的兴趣建模，从而主动给用户推荐能够满足它们需求和兴趣的信息

基于内容的推荐

基于标的物相关信息、用户相关信息及用户对标的物的操作行为来构建推荐算法模型，为用户提供推荐服务。这里的标的物相关信息可以是对标的物文字描述的metadata信息、标签、用户评论、人工标注的信息等。用户相关信息是指人口统计学信息(如年龄、性别、偏好、地域、收入等等)。用户对标的物的操作行为可以是评论、收藏、点赞、观看、浏览、点击、加购物车、购买等。
参考：推荐算法分类：协同过滤推荐、基于内容推荐、基于知识推荐、混合推荐

二者区别：
参考：协同过滤和基于内容推荐有什么区别

1、协同过滤算法与基于内容推荐算法所使用的数据维度不同。
【协同过滤】侧重使用用户对于商品的历史交互记录，即用户-商品二维矩阵；而【基于内容推荐】侧重于对用户或者项目的属性信息建模，比如用户的性别、年龄，商品的颜色、大小等属性。对于同一用户而言：【基于内容推荐】需要利用用户的性别、年龄、爱好等组成特征向量来表示；而【协同过滤】需要根据该用户所在矩阵的某一行来进行表示，即利用用户对于所有商品的交互记录来表示。换句话说，协同过滤算法中的用户/商品表示可以看做特殊的基于内容的表示，只不过是把用户的具体内容属性换为了用户的历史行为特征。

2、协同过滤算法与基于内容推荐算法的核心思想不同。
【协同过滤】侧重于从大数据（集体智慧）中寻找某些隐含的模式，即通过用户对于商品的历史交互记录来寻找相似的用户；而【基于内容推荐】则侧重于通过对象的属性信息来进行匹配建模进而寻找相似的用户或者商品。

3、协同过滤算法与基于内容推荐算法的实现技术不同。
【协同过滤】将用户-商品评分二维矩阵当做输入送入模型进行训练进而产生输出，典型的模型为矩阵分解、user-based cf，item-based cf；而【基于内容推荐】侧重将用户或者商品的特征信息作为输入特征，进而送入分类器进行建模，典礼的模型为LR。

4、协同过滤算法与基于内容推荐算法好坏的决定因素不同。
【协同过滤】算法随着用户对于商品的交互记录增多会使得模型能够更精确的捕捉用户的行为习惯，进而使得模型能够不费用额外的人工的方式来提高精度（但他在初期会面临冷启动问题的困扰）。【基于内容推荐】侧重于特征工程，算法的好坏由用户和商品的内容属性所决定，因此需要较强的领域知识，但他的好处是不存在冷启动的问题。

本质是将用户和物品联系起来

推荐系统评测

一个完整的推荐系统存在三个参与方：
用户、物品提供者、提供推荐系统的网站。

以图书推荐为例：
在这里插入图片描述

评测指标

1.用户满意度

通过用户调查（调查问卷）或者在线实验（用户行为统计得到）获得
如：电子商务网站利用购买率度量用户的满意度。
还可以用点击率，用户停留时间，转换率等指标

2.预测准确度

最重要的推荐离线评测指标

在计算该指标时需要有一个离线的数据集，该数据集包含用户的历史行为记录。然后，将该数据集通过时间分成训练集和测试集。最后,通过在训练集上建立用户的行为和兴趣模型预测用户在测试集上的行为，并计算预测行为和测试集上实际行为的重合度作为预测准确度。

评分预测
topN推荐
网站在提供推荐服务时，–般是给用户一个个性化的推荐列表，这种推荐叫做TopN推荐。TopN推荐的预测准确率一般通过准确率( precision)!召回率( recall）度量。

3.覆盖率

**覆盖率( coverage)描述一个推荐系统对物品长尾的发掘能力。**覆盖率有不同的定义方法,最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。假设系统的用户集合为U,推荐系统给每个用户推荐一个长度为N的物品列表R(u)。那么推荐系统的覆盖率可以通过下面的公式计算:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
马太效应：强者更强、弱者更弱的效应。推荐系统的初衷是希望消除马太效应，使得各个物品都能被展示给对它们感兴趣的某一类人群。

能被展示给对它们感兴趣的某一类人群。但是，很多研究表明现在主流的推荐算法(比如协同过滤算法）是具有马太效应的。评测推荐系统是否具有马太效应的简单办法就是使用基尼系数。如果G1是从初始用户行为中计算出的物品流行度的基尼系数，G2是从推荐列表中计算出的物品流行度的基尼系数，那么如果G2>G1，就说明推荐算法具有马太效应。

4.多样性

用户的兴趣是广泛的，在一个视频网站中，用户可能既喜欢看《猫和老鼠》一类的动画片，也喜欢看成龙的动作片。那么，为了满足用户广泛的兴趣，推荐列表需要能够覆盖用户不同的兴趣领域，即推荐结果需要具有多样性。多样性推荐列表的好处用一句俗话表述就是“不在一棵树上吊死”。尽管用户的兴趣在较长的时间跨度中是一样的，但具体到用户访问推荐系统的某一刻,其兴趣往往是单一的，那么如果推荐列表只能覆盖用户的一个兴趣点，而这个兴趣点不是用户这个时刻的兴趣点，推荐列表就不会让用户满意。反之，如果推荐列表比较多样，覆盖了用户绝大多数的兴趣点，那么就会增加用户找到感兴趣物品的概率。因此给用户的推荐列表也需要满足用户广泛的兴趣，即具有多样性。

在这里插入图片描述

5.新颖性

**新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。**在一个网站中实现新颖性的最简单办法是，把那些用户之前在网站中对其有过行为的物品从推荐列表中过滤掉。比如在一个视频网站中，新颖的推荐不应该给用户推荐那些他们已经看过、打过分或者浏览过的视频。但是,有些视频可能是用户在别的网站看过，或者是在电视上看过，因此仅仅过滤掉本网站中用户有过行为的物品还不能完全实现新颖性。
O’scar Celma在博士论文“Music Recommendation and Discovery in the Long Tail”“中研究了新颖度的评测。评测新颖度的最简单方法是利用推荐结果的平均流行度，因为越不热门的物品越可能让用户觉得新颖。因此，如果推荐结果中物品的平均热门程度较低，那么推荐结果就可能有比较高的新颖性。
但是,用推荐结果的平均流行度度量新颖性比较粗略,因为不同用户不知道的东西是不同的。因此,要准确地统计新颖性需要做用户调查。
最近几年关于多样性和新颖性的研究越来越受到推荐系统研究人员的关注。ACM的推荐系统会议在2011年有一个专门的研讨会讨论推荐的多样性和新颖性。"该研讨会的组织者认为，通过牺牲精度来提高多样性和新颖性是很容易的,而困难的是如何在不牺牲精度的情况下提高多样性和新颖性。关心这两个指标的读者可以关注一下这个研讨会最终发表的论文。

6.惊喜度

惊喜度与新颖度区别：
Guy Shani的论文提到，如果推荐结果和用户历史性去不相似，但却让用户觉得满意，那么就可以说推荐结果的惊喜度很高，而推荐的新颖性仅仅取决于用户是否听说过这个推荐结果。提高推荐惊喜度需要提高推荐结果的用户满意度，同时降低结果和用户历史兴趣的相似度。

7.信任度

如果用户信任推荐系统，那就会增加用户和推荐系统的交互。特别是在电子商务推荐系统中，让用户对推荐结果产生信任是非常重要的。同样的推荐结果,以让用户信任的方式推荐给用户就更能让用户产生购买欲，而以类似广告形式的方法推荐给用户就可能很难让用户产生购买的意愿。

提高推荐系统的信任度主要有两种方法。

首先需要增加推荐系统的透明度( transparency ),而增加推荐系统透明度的主要办法是提供推荐解释。只有让用户了解推荐系统的运行机制，让用户认同推荐系统的运行机制，才会提高用户对推荐系统的信任度。

其次是考虑用户的社交网络信息，利用用户的好友信息给用户做推荐，并且用好友进行推荐解释。这是因为用户对他们的好友一般都比较信任，因此如果推荐的商品是好友购买过的，那么他们对推荐结果就会相对比较信任。

8.实时性

在很多网站中，因为物品（新闻、微博等）具有很强的时效性，所以需要在物品还具有时效性时就将它们推荐给用户。比如,给用户推荐昨天的新闻显然不如给用户推荐今天的新闻。因此,在这些网站中，推荐系统的实时性就显得至关重要。

推荐系统的实时性包括两个方面。**首先，推荐系统需要实时地更新推荐列表来满足用户新的行为变化。**比如，当一个用户购买了iPhone，如果推荐系统能够立即给他推荐相关配件，那么肯定比第二天再给用户推荐相关配件更有价值。很多推荐系统都会在离线状态每天计算一次用户推荐列表,然后于在线期间将推荐列表展示给用户。这种设计显然是无法满足实时性的。**与用户行为相应的实时性,可以通过推荐列表的变化速率来评测。**如果推荐列表在用户有行为后变化不大,或者没有变化，说明推荐系统的实时性不高。

**实时性的第二个方面是推荐系统需要能够将新加人系统的物品推荐给用户。**这主要考验了推荐系统处理物品冷启动的能力。关于如何将新加入系统的物品推荐给用户，本书将在后面的章节进行讨论，而对于新物品推荐能力，我们可以利用用户推荐列表中有多大比例的物品是当天新加的来评测。

9.健壮性

衡量一个推荐系统抗击作弊能力
在这里插入图片描述
提高系统健壮性，有以下方法：

10.商业目标

最本质的商业目标就是平均一个用户给公司带来的盈利。比如电子商务网站的目标可能是销售额，基于展示广告盈利的网站其商业目标可能是广告展示总数。因此，设计推荐系统时需要考虑最终的商业目标，而网站使用推荐系统的目的除了满足用户发现内容的需求，也需要利用推荐系统加快实现商业上的指标。

11.总结

思考：如何优化离线指标提高在线指标

在这里插入图片描述

评测维度

增加评测维度的目的就是知道一个算法在什么情况下性能最好。这样可以为融合不同推荐算法取得最好的整体性能带来参考。
一般来说，评测维度分为如下3种。

用户维度主要包括用户的人口统计学信息、活跃度以及是不是新用户等。
物品维度﹐包括物品的属性信息、流行度、平均分以及是不是新加入的物品等。
时间维度包括季节，是工作日还是周末，是白天还是晚上等。

如果能够在推荐系统评测报告中包含不同维度下的系统评测指标,就能帮我们全面地了解推荐系统性能，找到一个看上去比较弱的算法的优势，发现一个看上去比较强的算法的缺点。

后记

2009年ACM推荐系统大会上Stand研究人员总结经验，提出10条在设计推荐系统中学习到的经验和教训

(1)确定你真的需要推荐系统。推荐系统只有在用户遇到信息过载时才必要。如果你的网站物品不太多，或者用户兴趣都比较单一，那么也许并不需要推荐系统。所以不要纠结于推荐系统这个词，不要为了做推荐系统而做推荐系统，而是应该从用户的角度出发，设计出能够真正帮助用户发现内容的系统，无论这个系统算法是否复杂，只要能够真正帮助用户,就是一个好的系统。
(2)确定商业目标和用户满意度之间的关系。对用户好的推荐系统不代表商业上有用的推荐系统，因此要首先确定用户满意的推荐系统和商业上需求的差距。一般来说，有些时候用户满意和商业需求并不吻合。但是一般情况下，用户满意度总是符合企业的长期利益，因此这一条的主要观点是要平衡企业的长期利益和短期利益之间的关系。
(3)选择合适的开发人员。一般来说，如果是一家大公司，应该雇用自己的开发人员来专门进行推荐系统的开发。
(4)忘记冷启动的问题。不断地创新，互联网上有任何你想要的数据。只要用户喜欢你的产品，他们就会不断贡献新的数据。
(5)平衡数据和算法之间的关系。使用正确的用户数据对推荐系统至关重要。对用户行为数据的深刻理解是设计好推荐系统的必要条件，因此分析数据是设计系统中最重要的部分。数据分析决定了如何设计模型，而算法只是决定了最终如何优化模型。
(6)找到相关的物品很容易，但是何时以何种方式将它们展现给用户是很困难的。不要为了推荐而推荐。
(7)不要浪费时间计算相似兴趣的用户，可以直接利用社会网络数据。
(8)需要不断地提升算法的扩展性。
(9)选择合适的用户反馈方式。
(10)设计合理的评测系统，时刻关注推荐系统各方面的性能。

飞锡2024

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《推荐系统实践》第一章好的推荐系统读书笔记

推荐系统的方法按照数据分：协同过滤、内容过滤、社会化过滤按照算法分: 基于邻域、基于图、基于矩阵分解、概率模型好的推荐系统什么是推荐系统？推荐系统的主要任务是什么？推荐系统的主要任务、推荐系统和分类目录以及搜索引擎的区别等...
复制链接

扫一扫