推荐系统的演进
人工运营
随机、 根据运营目的、根据领域知识
优点:方便推广特定内容、易解释
缺点:×千人一面×耗费人力×过于主观
基于统计推荐
Ø 热度榜分群热度榜、 用户分群、 物品分群
优点:ü简单粗暴效果好有公信力,易解释
缺点:
×千人一面×马太效应×效果很容易达到天花板
个性化推荐
Ø 基于内容推荐 协同过滤• 基于邻域• 基于模型、基于社交网络、混合模型......
优点:
ü 简单粗暴效果好ü有公信力,易解释
缺点:×门槛较高×成本较高
个性化推荐里面包含很多的算法和模型,我们今天从简单的基于近邻推荐来讲解
协同过滤以及k近邻
协同过滤
已知用户喜欢 A喜欢 A 的用户通常也会喜欢 B做法
Ø给用户推荐他喜欢的物品的相似物
如何定义喜欢
Ø行为定义、显式行为
Ø评分/购买/收藏/点赞
Ø隐式行为
Ø点击/观看/收听/阅读
Ø行为矩阵构建
Ø每个物品可以表示为 n 维向量(n 是用户数)
基于用户的协同过滤
最相邻的K个用户
相似度求解 假设求解到user1 与 A、B、C的相似度为 0.25 、0.8
小米盒子: 1*0.25 = 0.25
note2: 1*0.25 = 0.25
蜡烛: 1*0.25 = 0.25
润肤霜: 1*0.8 = 0.8
肥皂: 1*0.8+1*0.25=1.05
然后给user1推荐按照相似度排序
相似度怎么计算,然后又什么技巧
相似度的度量方式
Ø普通的Jaccard相、皮尔逊系数、修正余弦相似度
相似度计算的技巧
Ø 热度惩罚、冷门行为加权、活跃用户降权
K近邻
K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表,它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别
转载自: