https://www.jianshu.com/p/79d24fa3664f
https://github.com/MrQuJL/product-recommendation-system/tree/master/shopping-recommendate
https://blog.csdn.net/ABCDEFG0929/article/details/87103772
https://www.cnblogs.com/1113127139aaa/p/9830449.html
常用的协同过滤算法有两种,基于用户的协同过滤算法以及基于物品的协同过滤算法,都属于基于领域的算法。
基于用户的协同过滤算法也被称为最近邻协同过滤或KNN (K.Nearest-Neighbor,K最近邻算法)。其核心思想就是,首先根据相似度计算出目标用户的邻居集合,然后用邻居用户评分的加权组合来为目标用户作推荐。
基于用户的协同过滤算法主要包括两个步骤1、找到与目标用户兴趣相似的用户集合2、找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户
算法实现
1、计算其他用户与目标用户的相似度
2、根据相似度找到与你最相似的k个用户(邻居)
3、在这些邻居喜欢的物品中,根据与目标用户的相似度加权计算出每一件物品的推荐度
4、根据推荐度向目标用户推荐物品
计算相似度
1、余弦相似度2、Pearson相关系数3、Jaccard公式
余弦相似度的原理
-
在三角形中,cos30°=二分之根三,cos60°=1/2。很明显,cos30°相比于cos60°更接近于 1,可以看出角度越接近于 0°,对应的余弦值越接近于 1,构成这个角度的两条边也就越接近于重合,也就可以认为这两条边越相似。
-
在二维的平面向量中,两个向量之间夹角的余弦值公式为:
假设两个向量a,b的坐标分别为(x1,y1)、(x2,y2),所以最终可以化简为:
注:其中的x和y是两个不同的维度,在向量直角坐标系中可以认为是距x和y轴的距离,但是在实际的应用中,可以是把它理解为一个物体的任何一个可以衡量它与其他物体不同之处的属性...咳咳,还是说人话吧,在商品推荐中可以把向量 a 和向量 b 理解为两个不同的用户,把 (x1,y1) 理解为 a 用户对 x 商品的点击次数和对 y 商品的点击次数,再把对应的值带入上述公式即可求出两个用户之间的相似性,越接近于 1 ,说明两个用户的浏览行为越相似,就可以把一个用户浏览过的商品推荐给另一个没有浏览过该商品的用户,从而完成商品推荐。 -
设向量 A = (A1,A2,A3,...,An), B = (B1,B2,B3,...,Bn),推广到多维,公式为:
其中的 A1,A2,A3...就可以理解为该用户对不同的商品的点击量。
code:
import numpy as np
import math
def U_CF(R, k):
map = {}
m, n = R.shape
st = 0
for i in range(n):
st += pow(R[1, i], 2)
st = math.sqrt(st)
for i in range(m):
if m != 1:
x = np.dot(R[i, :], R[1, :])
y = 0
for j in range(n):
y += pow(R[i, j], 2)
y = math.sqrt(y)
map[i] = x / (y * st)
# map[i]=(y*st)/x
# 对map的值按照从大到小排序找出前k大的 这里应该是0 3 两个邻居
sorted_map2list = sorted(map.items(), key=lambda x: x[1], reverse=True) # 返回的是列表
# 对这k个进行加权计算
pre_map = {}
for i in range(n):
for j in range(k):
temp = sorted_map2list[j][1] * R[sorted_map2list[j][0], i] # 加权计算 相似率*值
pre_map[i] = temp
# pre_map中存了n对数据
# 选择没有的进行推荐
new_map = {}
for i in range(n):
if R[1, i] == 0:
new_map[i] = pre_map[i]
# 对new_map进行排序
new_map = sorted(new_map.items(), key=lambda x: x[1], reverse=True)
print('推荐顺序是(商品号码以及加权计算的结果)', new_map) # 顺序应该是4 0
def solve():
R = np.array([[1, 1, 1, 1, 0],
[0, 1, 1, 1, 0],
[0, 1, 1, 1, 1],
[1, 1, 1, 1, 1],
])
k = 2
U_CF(R, k)
if __name__ == '__main__':
solve()
运行结果: