维基百科推荐算法阅读总结

最新推荐文章于 2022-01-26 14:02:50 发布

中南大学苹果实验室

最新推荐文章于 2022-01-26 14:02:50 发布

阅读量340

点赞数 1

分类专栏：推荐算法文章标签：算法推荐系统

本文链接：https://blog.csdn.net/cyl_csdn_1/article/details/119839179

版权

推荐算法专栏收录该内容

5 篇文章

订阅专栏

作者：18届 cyl

日期：2021-08-20

一、推荐算法概述

推荐系统是信息过滤领域的重要课题。我们通常使用的音乐或视频播放软件、新闻浏览软件、网购软件等等软件都有他的身影。这些推荐系统的输入既可以为单一输入（音乐或视频）也可以为多输入（同平台或跨平台的多种数据），最终为用户提供精选内容，提高用户满意度与软件点击率。目前，推荐系统甚至被应用在寻找研究文章与相关专家、金融服务等领域。

二、推荐系统种类

2.1 协同过滤

定义：协同过滤算法假设人们在将来对事物所表现出来的偏好与过去所表现出来的偏好相同。该算法仅使用有关不同用户或项目的评级概况信息生成推荐。它首先寻找与当前用户A（项目）历史偏好相同的用户B（项目），然后将B历史偏好中有但A没有的偏好推荐给A。

重点：寻找相似用户（如使用KNN或Pearson相关性评价用户相似度）

数据：分为显式和隐式两种数据。其中显式是指用户打分、用户对自己的喜好进行排列等；隐式数据则是用户平时的使用习惯、浏览记录、购买记录、购物车记录等等

优点：无需进行复杂的机器分析，因此即使算法本身可能并不理解不同电影的内容之间的区别和偏好但仍然可以为不同用户推荐电影。

缺点：

慢启动：当面对一个新的用户或者商品，早期没有足够的数据来提供准确的推荐。（解决方法：多臂老虎机算法）
拓展性：系统往往需要大量的算力来处理源源不断的数据并为用户提供个性化推荐。
稀疏性：商品总量往往很大，然而用户可能只关注其中一小部分。

2.2 基于内容过滤

定义：基于内容过滤的推荐算法首先分析被推荐物品的特点，然后将这些物品进行分类或建立相关性网络。当用户选择物品A时向用户推荐与A特性相似的B。系统通常会为用户建立一个基于内容的配置文件——加权特征向量，其中权重代表每个特征的重要性。

重点：

物品特性提取及分类（需要专业人士对物品进行大量的分析及分类工作）
用户偏爱项目类型分析（统计并分析用户点击足迹或购买收藏足迹）

数据：

专家对物品的特性分析及分类
用户偏好数据（浏览、点击、收藏、购买等足迹）
用户与推荐系统的交互（对推荐物品的满意度反馈

优点：无需用户登录也可以建立基于用户点击的临时偏好配置文件。（无慢启动问题）

缺点：

需要大量专家对相关物品做特征提取与分析分类。
系统总是被受限于推荐用户经常浏览的同一类型的物品。而这类推荐系统的价值会低于可以提供不同类型物品推荐服务的系统。比如：根据用户的新闻浏览数据向用户推荐新的新闻是有效的，但是如果也可以推荐音乐、视频等各类文章将会更好。为了克服这个缺点，大多数基于内容过滤的推荐系统通常也使用一些其他形式的混合系统。