【推荐架构day1】推荐系统的基本原理及架构：信息与人的供需匹配

最新推荐文章于 2024-08-01 18:18:04 发布

软件真理与光

最新推荐文章于 2024-08-01 18:18:04 发布

阅读量2.4k

点赞数 7

分类专栏：业务技术文章标签：后端架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ture010Love/article/details/104356147

版权

按：本文来自陈彩华的精分享，从WHY、What到How系统性地介绍一下推荐系统的基本原理。

为什么需要推荐系统

对于信息消费者，需要从大量信息中找到自己感兴趣的信息，而在信息过载时代，用户难以从大量信息中获取自己感兴趣、或者对自己有价值的信息。

对于信息生产者，需要让自己生产的信息脱颖而出，受到广大用户的关注。从物品的角度出发，推荐系统可以更好地发掘物品的长尾（long tail）。

长尾效应是美国《连线》杂志主编 Chris Anderson 在 2006 年出版的《长尾理论》一书中指出，传统的 80/20 原则（80% 的销售额来自于 20% 的热门品牌）在互联网的加入下会受到挑战。互联网条件下，由于货架成本极端低廉，电子商务网站往往能出售比传统零售店更多的商品。这些原来不受到重视的销量小但种类多的产品或服务由于总量巨大，累积起来的总收益超过主流产品的现象。

主流商品往往代表了绝大多数用户的需求，而长尾商品往往代表了一小部分用户的个性化需求。

推荐系统通过发掘用户的行为，找到用户的个性化需求，从而将长尾商品准确地推荐给需要它的用户，帮助用户发现那些他们感兴趣但很难发现的商品。

推荐系统的任务在于：

一方面帮助用户发现对自己有价值的信息。
另一方面让信息能够展现在对它感兴趣的用户面前，从而实现信息消费者和信息生产者的双赢。

推荐系统的本质

通过一定的方式将用户和物品联系起来，而不同的推荐系统利用了不同的方式。

推荐系统就是自动联系用户和物品的一种工具，它能够在信息过载的环境中帮助用户发现令他们感兴趣的信息，也能将信息推送给对它们感兴趣的用户。

评价指标

从产品的角度出发，评价一个推荐系统可以从以下维度出发：

用户满意度：用户作为推荐系统的重要参与者，其满意度是评测推荐系统的最重要指标。但是，用户满意度没有办法离线计算，只能通过用户调查或者在线实验获得。
预测准确度：预测准确度度量一个推荐系统或者推荐算法预测用户行为的能力。这个指标是最重要的推荐系统离线评测指标，从推荐系统诞生的那一天起，几乎 99% 与推荐相关的论文都在讨论这个指标。
在计算该指标时需要有一个离线的数据集，该数据集包含用户的历史行为记录。然后，将该数据集通过时间分成训练集和测试集。

最后，通过在训练集上建立用户的行为和兴趣模型预测用户在测试集上的行为，并计算预测行为和测试集上实际行为的重合度作为预测准确度。
覆盖率：覆盖率（ coverage ）描述一个推荐系统对物品长尾的发掘能力。覆盖率有不同的定义方法，最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。
多样性：用户的兴趣是广泛的，为了满足用户广泛的兴趣，推荐列表需要能够覆盖用户不同的兴趣领域，即推荐结果需要具有多样性。
新颖性：新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。在一个网站中实现新颖性的最简单办法是，把那些用户之前在网站中对其有过行为的物品从推荐列表中过滤掉。
惊喜度：与新颖性不同，如果推荐结果和用户的历史兴趣不相似，但却让用户觉得满意，那么就可以说推荐结果的惊喜度很高，而推荐的新颖性仅仅取决于用户是否听说过这个推荐结果。
信任度：对于基于机器学习的自动推荐系统，同样存在信任度（ trust ）的问题，如果用户信任推荐系统，那就会增加用户和推荐系统的交互。

同样的推荐结果，以让用户信任的方式推荐给用户就更能让用户产生购买欲，而以类似广告形式的方法推荐给用户就可能很难让用户产生购买的意愿。

度量推荐系统的信任度只能通过问卷调查的方式，询问用户是否信任推荐系统的推荐结果。
实时性：推荐系统需要实时地更新推荐列表来满足用户新的行为变化，推荐系统需要能够将新加入系统的物品推荐给用户。这主要考验了推荐系统处理物品冷启动的能力。
健壮性：任何一个能带来利益的算法系统都会被人攻击，这方面最典型的例子就是搜索引擎。

搜索引擎的作弊和反作弊斗争异常激烈，而健壮性（即 robust，鲁棒性）指标衡量了一个推荐系统抗击作弊的能力。

基于用户行为推荐

用户行为

用户行为可以分为显性反馈行为（explicit feedback）和隐性反馈行为（implicit feedback）。

显性反馈行为：指用户明确表示对物品喜好的行为，主要方式就是评分和喜欢/不喜欢。

常见的显性反馈行为可以参考如下表格：

隐性反馈行为（implicit feedback）：指的是那些不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为。

用户浏览一个物品的页面并不代表用户一定喜欢这个页面展示的物品，比如可能因为这个页面链接显示在首页，用户更容易点击它而已。

相比显性反馈，隐性反馈虽然不明确，但数据量更大。在很多网站中，很多用户甚至只有隐性反馈数据，而没有显性反馈数据。

基于用户行为数据设计的推荐算法一般称为协同过滤算法。学术界对协同过滤算法进行了深入研究，提出了很多方法。

比如基于邻域的算法（neighborhood-based）、隐语义模型（latent factor model）、基于图的随机游走算法（random walk on graph）等。

下面主要展开介绍基于领域的算法和

最低0.47元/天解锁文章

软件真理与光

关注

7
点赞
踩
19

收藏

觉得还不错? 一键收藏
3
评论
【推荐架构day1】推荐系统的基本原理及架构：信息与人的供需匹配

陈彩华为什么需要推荐系统对于信息消费者，需要从大量信息中找到自己感兴趣的信息，而在信息过载时代，用户难以从大量信息中获取自己感兴趣、或者对自己有价值的信息。对于信息生产者，需要让自己生产的信息脱颖而出，受到广大用户的关注。从物品的角度出发，推荐系统可以更好地发掘物品的长尾（long tail）。长尾效应是美国《连线》杂志主编 Chris Anderson...
复制链接

扫一扫

专栏目录

软件真理与光

CSDN认证博客专家 CSDN认证企业博客

码龄16年

架构领域优质创作者

199: 原创

7060: 周排名

1510: 总排名

369万+: 访问

: 等级

1万+: 积分

2万+: 粉丝

1153: 获赞

301: 评论

2712: 收藏

私信

关注

热门文章

分类专栏

笔记
业务技术 105篇
My 1篇
数学 1篇
基础技术 26篇
脑科学 2篇
C++ 54篇
算法 22篇
商业
经济 4篇

最新评论

【银行架构day1】一个银行的信息系统架构是什么样子
风来泊: 本书囊括了从银行对客服务的渠道系统、银行业务中台系统、金融产品系统及核心账务系统到近年的创新金融科技在银行业的落地，包括区块链、分布式账本、人工智能，生成式AI、量子技术、隐私计算、多方安全计算、元宇宙、RPA技术在银行业的应用落地，从监管规定和行业规范出发，描述了传统银行系统和创新银行应用的结合。本书还详细描述了近三年来的金融系统建设事件，包括网联清算平台的推出、ETC公路计费、医疗付费、海关单一窗口、人民币跨境支付系统CIPS、数字人民币系统、第三方支付系统、网贷平台规范化、票据交易所新推出的新一代票据交易系统等。本书图文并茂，通俗易懂，适用于银行业IT板块的初学者、应用架构规划人员、金融同业和银行对接开发的IT板块开发人员等，也适合于高等学校普通教师和学生用于了解银行IT系统面貌。【京东】网页链接「银行信息系统应用架构导论【中国金融出版社直属书店】」
为什么OceanBase不适合银行的三点思考
weixin_40660232: 估计是甲骨文专门花钱写的小作文
struct对齐问题
m0_62116886: int最大值是2^31-1
（转）MFC是不是过时了！！！
xbgs: 虽然是十几年前的帖子，但是现在还是没有过时
上半年、你学到了什么？
黑贞正在赶来的路上: 堆与栈实际上是操作系统对进程占用的内存空间的两种管理方式，主要有如下几种区别：（1）管理方式不同。栈由操作系统自动分配释放，无需我们手动控制；堆的申请和释放工作由程序员控制，容易产生内存泄漏；

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。