一文带你梳理推荐系统


前言

随着互联网的发展,人们已经不能够满足于直接的搜索来的东西,每个人都有自己的喜好,就好像看电影一样,一个人喜欢看好莱坞大片但是他不知道好的片子是怎么区分的,同时自己想看片子的时候也需要自己去到处查找,那么如果有一个可以通过他看几部片子就能够得出他的观影特点,同时在下次看的时候能够直接的为他推荐这样的片子那么是不是他就会经常使用这个软件呢?那么这个就是推荐系统,对于他来说通过几部片子得到他的喜好的集合,这里在推荐系统中使用的是它的基于用户数据的推荐系统。那么接下来我们来看看具体的推荐系统的相关概念。


一、推荐系统概述

1、推荐系统的目的:

在前面的前言中对于推荐系统的目的已经有了一个比较大概的概括,那么推荐系统的目的到底是什么呢?

1.1 信息过载:

在互联网时代,每天激增的数据量是十分的庞大的,就比如现在十分流行的抖音来说,每天都有数以亿计的用户进行娱乐,那么对于每个用户来说他们所感兴趣的视频段子都是不一样的,那么怎么样能够做到在这样数据信息量下保证每个人都能够看到自己喜欢的视频呢?这个很重要。

  • 推荐系统是信息过载所采用的措施,面对海量的数据信息,从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧症”:面向没有明确需求的人。

  • 解决如何从大量信息中找到自己感兴趣的信息。

  • 解决如何让自己生产的信息脱颖而出,受到大众的喜爱。

对于一个篮球爱好者来说,面对这样的情况是比较理想的,虽然在我的账号中也会有其他的视频,但是十个视频中会有5个是我最喜欢的篮球视频,同时这也是我喜爱的原因。

1.2让用户更快更好的获取到自己需要的内容

从用户角度来说,这是一个软件一个系统能够带来大量的用户量的重要目的,如果没有大量的用户,那么就不会有很大的收益,这个是从商业角度来说是这样的。同时作为一个用户也能够享受这样的乐趣。

1.3让内容更快更好的推送到喜欢它的用户手中

这个就比较直接了,当内容产生之后需要用户对它进行消费才能够达到内容产生的目的,如果没有用户对它进行消费,那么对于内容来说就会被埋没,当然,现在的很多软件都会走向利益化,同样的内容的资源很多,用户能够看到的也不是很多,质量是第一,但是也有对于¥的使用能够让更多的用户能够看到。但是对于推荐的目的是完全实现的,那么对于内容的优劣就需要用户自己去进行辨别了。

1.4让网站(平台)更有效的保留用户资源

这个就是我在上面说的一样,对于这样的平台用户量就是盈利,那么好的推荐系统能够留下的用户也会是比价多。

  • 有句话说的好:好的推荐系统就是让用户-内容-平台能够三方共赢。
    在这里插入图片描述

2、推荐系统的基本思想

2.1知你所想,精准推送

  • 利用用户和物品的特征信息,给用户推荐那些具有用户喜欢的特征的物品。

2.2物以类聚

  • 利用用户喜欢过的物品,给用户推荐与他喜欢过的物品相似的物品。

2.3人以群分

  • 利用和用户相似的其他用户,给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品。
    思想结构图

3、推荐系统的数据分析

  • 下面是用户于物品之间的数据分析图
    用户于物品之间

在上面得结构图中,对于推荐系统推荐的基于用户得物品上来说,用户会对推荐的物品评分评价以及打上标签也就是对于用户来说的满意度。还有就是对于用户得一些行为进行分析,点击量是一些视频网站的重点,那么对于点击率也是一个不错的分析手段,还有就是对于一些购物网站来说对于自己喜欢的店铺商品的收藏也是重要数据。那么怎实现这样的操作呢?那么就是在用户以及物品上面添加定义,比如对于用户可以定义为该用户喜欢看NBA以及好莱坞大片,对于物品来说可以定义为,爱情片、体育、动作等等。通过这样数据的采集就可以对推荐系统进行设计。

  • 要推荐物品或内容的元数据,例如关键字,分类标签,基因描述等;
  • 系统用户的基本信息,例如性别,年龄,兴趣标签等;
  • 用户的行为数据,可以转化为对物品或者信息的偏好,根据应用本身的不同,可能包括用户对物品的评分,用户查看物品的记录,用户的购买记录等。这、些用户的偏好信息可以分为两类:

1、 显式的用户反馈:这类是用户在网站上自然浏览或者使用网站以外,显式的提供反馈信息,例如用户对物品的评分,或者对物品的评论。 –
2、隐式的用户反馈:这类是用户在使用网站是产生的数据,隐式的反应了用户对物品的喜好,例如用户购买了某物品,用户查看了某物品的信息等等。

4、推荐系统的分类

推荐系统也有很多种类型,通过不同的标准划分可以分为一下四种:

4.1根据实时性分类

  • 离线推荐
  • 实时推荐

4.2根据推荐原则分类

  • 基于相似度的推荐
  • 基于知识的推荐
  • 基于模型的推荐

4.3根据推荐是否个性化分类

  • 基于统计的推荐
  • 个性化推荐

4.4根据数据源分类

  • 基于人口统计学的推荐
  • 基于内容的推荐
  • 基于协同过滤的推荐

4.5分类图

分类图

二、推荐系统算法简介

1、基于人口统计学的推荐算法

基于人口统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户对于没有明确含义的用户信息(比如登录时间、地域等上下文信息),可以通过聚类等手段,给用户打上分类标签。
对于特定标签的用户,又可以根据预设的规则(知识)或者模型,推荐出对应的物品。
用户信息标签化的过程一般又称为用户画像(User Profiling)。

  • 算法结构图
    基于人口统计学的推荐算法

在这个结构图中可以知道我们基于人口统计进行推荐年龄在25-30喜欢A那么对于用户C就可以为他推荐A物品

2、基于内容的推荐算法

  • 算法概述:Content-Based Recommendations

这个算法是基于标的物品相关信息、用户相关信息以及用户对标的物的操作行为来构建推荐算法模型,为用户推荐服务。

  • 算法结构图
    基于内容的推荐

在上面得结构算法思想结构图中可以很直观的看到,根据电影的类型用户A喜欢什么类型的电影然后对这样的电影进行对用户A推荐C电影

3、基于协同过滤的推荐

3.1、协同过滤算法概述

  • 协同过滤算法(Collaborative Filtering, CF)是最基本的推荐算法,可分为:

(1)、基于用户的协同过滤算法(user-based):通过相似用户进行推荐,比较计算用户的相似性,越相似两者品味相近。  
(2)、基于项的协同过滤算法(item-based):通过相似项推荐,比较计算项与项之间的相似性,为用户推荐与其打过分的项相似的项。

3.2、相似度的度量方法

  • 1、欧式距离:

欧几里得空间中两点间“普通”(即直线)距离。

  • 2、皮尔森相关系数:

若特征之间数量级相差过大,对欧式距离的影响比较大,就不能很好的判断。皮尔森相关系数对量级不敏感,它是两个向量之间的协方差和标准差之商。其取值在-1与+1之间,若r>0,表明两个变量是正相关;若r<0,表明两个变量是负相关。r 的绝对值越大表明相关性越强。具体形式是:

  • 3、余弦相似度:

是文本相似度度量使用较多的一个方法,计算两个向量的夹角余弦值来评估他们的相似度。对于两个向量X和Y,其对应形式如下:

3.3、基于协同过滤的推荐算法

  • 1、基于用户的协同过滤算法

解释:为用户推荐和他兴趣相似的其他用户喜欢的物品。利用用户间的相似度,为用户没有打分的内容打分。

用户商品矩阵:不同用户,不同商品,元素为用户对商品的打分,可能有的用户没有对某些商品打分,没打分的为0。

用户相似度矩阵:通过用户商品矩阵和相似性度量计算用户之间的相似度,是一个对称矩阵,对角线全是0。

商品打分:利用用户间的相似度,为用户u没有打分的内容打分

  • 2、基于内容的协同过滤算法

它计算的是商品相似度矩阵。

3.4算法结构图

  • 基于用户得协同过滤
    基于用户得协同过滤
  • 基于物品的协同过滤
    基于物品的协同过滤

4、混合推荐

实际网站的推荐系统往往都不是单纯只采用了某一种推荐的机制和策略,往往是将多个方法混合在一起,从而达到更好的推荐效果。比较流行的组合方法有:

4.1加权混合

用线性公式(linear formula)将几种不同的推荐按照一定权重组合起来,具体权重的值需要在测试数据集上反复实验,从而达到最好的推荐效果。

4.2切换混合

切换的混合方式,就是允许在不同的情况(数据量,系统运行状况,用户和物品的数目等)下,选择最为合适的推荐机制计算推荐。

4.3分区混合

采用多种推荐机制,并将不同的推荐结果分不同的区显示给用户。

4.4分层混合

采用多种推荐机制,并将一个推荐机制的结果作为另一个的输入,从而综合各个推荐机制的优缺点,得到更加准确的推荐。

三、推荐系统评测

  • 评测指标:

1、预测准确度
2、用户满意度
3、覆盖率
4、多样性
5、惊喜度
6、信任度
7、实时性
8、健壮性
9、商业目标


总结

这是推荐系统必须要理解的概念,从推荐系统的产生到现在的广泛应用都是十分重要的。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值