用户user对物品item的评分:
多个用户users对多个物品items的评分:
(显性数据为直接评分,隐性数据则无直接评分,用隐性行为计算评分,转为显性数据)
做协同过滤时,需要将用户对物品的评分矩阵
如果用户对物品都有评分,可直接将竖着一列(用户)单独抽出来,这一列叫做用户的向量,继而计算相似度,判断相似不相似。
计算相似度的方法:余弦相似度(夹角),皮尔逊相似系数
补充:
Cross-sell 交叉销售(买了手机后推荐买手机壳)
Up-sell 向上销售(看自行车,推荐买劳斯莱斯)
总结:
分词:tf-idf(中文文本需要分词,提取特征值)
word2Vec 计算词向量