文章目录
- 课程地址:尚硅谷大数据项目教程(大数据实战电商推荐系统)
- 尚硅谷电商推荐系统的配套资料及虚拟机
链接:https://pan.baidu.com/s/1iSMqV2wPkEfIsO1FrkxRNQ?pwd=1996
提取码:1996 - 1.项目体系架构设计(电商推荐系统)
- 2.工具环境搭建(电商推荐系统)
- 3.创建项目并初始化业务数据(电商推荐系统)
- 4.离线推荐服务建设(电商推荐系统)
- 5.实时推荐服务建设(电商推荐系统)
- 6.冷启动问题处理(电商推荐系统)
- 7.基于内容的相似推荐与基于物品的协同过滤推荐
- 8.尚硅谷电商推荐系统预览
- 实时系统联调那部分,视频教程里面用的是Windows10自带的Linux Bash,这部分我在虚拟机中国完成,暂时先以视频内容中替代,最后在第8章通过启动虚拟机来展示。
一、实时推荐服务
实时计算与离线计算应用于推荐系统上最大的不同在于实时计算推荐结果应该反映最近一段时间用户近期的偏好,而离线计算推荐结果则是根据用户从第一次评分起的所有评分记录来计算用户总体的偏好。
用户对物品的偏好随着时间的推移总是会改变的。比如一个用户u
在某时刻对商品p
给予了极高的评分,那么在近期一段时候,u
极有可能很喜欢与商品p
类似的其他商品;而如果用户u
在某时刻对商品q
给予了极低的评分,那么在近期一段时候,u
极有可能不喜欢与商品q
类似的其他商品。所以对于实时推荐,当用户对一个商品进行了评价后,用户会希望推荐结果基于最近这几次评分进行一定的更新,使得推荐结果匹配用户近期的偏好,满足用户近期的口味。
如果实时推荐继续采用离线推荐中的ALS
算法,由于算法运行时间巨大,不具有实时得到新的推荐结果的能力;并且由于算法本身的使用的是评分表,用户本次评分后只更新了总评分表中的一项,使得算法运行后的推荐结果与用户本次评分之前的推荐结果基本没有多少差别,从而给用户一种推荐结果一直没变化的感觉,很影响用户体验。
另外,在实时推荐中由于时间性能上要满足实时或者准实时的要求,所以算法的计算量不能太大,避免复杂、过多的计算造成用户体验的下降。鉴于此,推荐精度往往不会很高。实时推荐系统更关心推荐结果的动态变化能力,只要更新推荐结果的理由合理即可,至于推荐的精度要求则可以适当放宽。所以对于实时推荐算法,主要有两点需求:
- 用户本次评分后、或最近几个评分后,系统可以明显的更新推荐结果;
- 计算量不大(计算简单),满足响应时间上的实时或者准实时要求;
二、实时推荐模型和代码框架
1.实时推荐模型算法设计
当用户u
对商品p
进行了评分,将触发一次对u
的推荐结果的更新。由于用户u
对商品p
评分,对于用户u
来说,他与p
最相似的商品们之间的推荐强度将发生变化,所以选取与商品p
最相似的K
个商品作为候选商品。
每个候选商品按照“推荐优先级”这一权重作为衡量这个商品被推荐给用户u
的优先级。
这些商品将根据用户u
最近的若干评分计算出各自对用户u
的推荐优先级,然后与上次对用户u
的实时推荐结果的进行基于推荐优先级的合并、替换得到更新后的推荐结果。
具体来说:
首先,获取用户u
按时间顺序最近的K
个评分,记为RK
;获取商品p
的最相似的K
个商品集合,记为S
;
然后,对于每个商品 q ∈ S q∈S q∈S ,计算其推荐优先级 E u q E_{uq} Euq,计算公式如下:
其中:
- R r R_r Rr表示用户
u
对商品r
的评分; - s i m ( q , r ) sim(q,r) sim(q,r)表示商品
q
与商品r
的相似度,设定最小相似度为0.6,当商品q
和商品r
相似度低于0.6 的阈值,则视为两者不相关并忽略; - s i m _ s u m sim\_sum sim_sum 表示
q
与RK
中商品相似度大于最小阈值的个数; - i n c o u n t incount incount 表示
RK
中与商品q
相似的、且本身评分较高( > = 3 >=3 >=3)的商品个数; - r e c o u n t recount recount 表示
RK
中与商品q
相似的、且本身评分较低( < 3 <3 <3)的商品个数;
公式的意义如下:
首先,对于每个候选商品q
,从u
最近的K
个评分中,找出与q
相似度较高( > = 0.6 >=0.6 >=0.6)的已评分商品们,对于这些已评分商品们中的每个商品r
,将r
与q
的相似度乘以用户u
对r
的评分,将这些乘积计算平均数,作为用户u
对商品q
的评分预测即
然后,将u
最近的K
个评分中与商品q
相似的、且本身评分较高( > = 3 >=3 >=3)的商品个数记为 i n c o u n t incount incount,计算 l g m a x { i n c o u n t , 1 } lgmax\{incount,1\} lgmax{
incount,1}作为商品 q
的“增强因子”,意义在于商品q
与u
的最近K
个评分中的n
个高评分(>=3)商品相似,则商品q
的优先级被增加 l g m a x { i n c o u n t , 1 } lgmax\{incount,1\} lgmax{
incount,1}。如果商品 q
与 u
的最近 K
个评分中相似的高评分商品越多,也就是说n
越大,则商品q
更应该被推荐,所以推荐优先级被增强的幅度较大;如果商品q
与u
的最近K
个评分中相似的高评分商品越少,也就是n
越小,则推荐优先级被增强的幅度较小;
而后,将u
最近的K
个评分中与商品q
相似的、且本身评分较低( < 3 <3 <3)的商品个数记为 r e c o u n t recount recount,计算 l g m a x { r e c o u n t , 1 } lgmax\{recount,1\} lgmax{
recount,1}作为商品 q
的“削弱因子”,意义在于商品q
与u
的最近K
个评分中的n
个低评分( < 3 <3 <3)商品相似,则商品q
的优先级被削减 l g m a x { r e c o u n t , 1 } lgmax\{recount,1\} lgmax{
recount,1}。如果商品 q
与u
的最近K
个评分中相似的低评分商品越多,也就是说n
越大,则商品q
更不应该被推荐,所以推荐优先级被减弱的幅度较大;如果商品q
与u
的最近K
个评分中相似的低评分商品越少,也就是n
越小,则推荐优先级被减弱的幅度较小;
最后,将增强因子增加到上述的预测评分中,并减去削弱因子,得到最终的q
商品对于u 的推荐优先级。在计算完每个候选商品q
的 E u q E_{uq} Euq后,将生成一组<商品q的ID, q的推荐优先级>
的列表updatedList
:
而在本次为用户u
实时推荐之前的上一次实时推荐结果Rec
也是一组<商品m,m 的推荐优先级>
的列表,其大小也为K
:
接下来,将updated_S
与本次为u
实时推荐之前的上一次实时推荐结果Rec
进行基于合并、替换形成新的推荐结果NewRec
:
其中,i
表示updated_S
与Rec
的商品集合中的每个商品,topK
是一个函数,表示从 Recupdated _ S
中选择出最大的 K
个商品, c m p =