主要参考:
论文The Krakatoa Chronicle - An Interactive, Personalized, Newspaper on the Web
1、首先举一个具体实例:给用户推荐电影(相似:新闻/淘宝/旅馆等等);
内容:用户及用户给电影的评分,组成的矩阵形式如下:
(实际情况中也是包含大量缺省值的)
下面是针对如上实际问题进行的一些概念、理论及算法的研究:
以新闻推荐为例进行具体探讨:
1、属性空间:就是词汇表;
2、如何代表一个用户偏好:
隐性:读、点击、保存、收藏等等;
显性:顶、踩、评论等等;
3、如何表示一篇文章:文章中有很多词,如何表示每个词的对于文章代表性权重的大小,即如何识别keywords:
Keywords有两个要素:一个是这些词在同一个文档出现频率大;另一个是这些词在其他文档出现频率不大(防止定冠词等通用词的普遍性)
1)TFIDF:Term Frequency * Inverse Document Frequency
Term frequency: Number of occurrences of a term in the document
Inverse Document frequency: but not appear in other documents:log (documents / documents with term) (分母:包含这些词的文档个数,其越大,最后TFIDF乘积越小)
4、有了文章词向量及用户偏好词向量,如何找到他们之间的相似性,也即这篇文章与这个用户喜好的相关性大小的度量:
1)首先考虑一个新闻的通用价值大小的恒量(也即对所有用户来说他的价值大小):
同样包括两个方面属性:
一个是其关注度/话题热度(顶/踩个数)的表示;
另一个是其时效性的表示(也就是越新其价值越大);
其计算公式如下(这只是其中一种比较好的度量方式,其他度量方法有机会再与大家分享学习):
其中U、D表示顶和踩的个数(取log的理解:越往后顶和踩的价值越小,如人云亦云等等),t_post表示时间;
2)相似性度量算法:
有了如上新闻通用价值的恒量,那么其值乘上Similarity (this news, this user),就是最终的推荐结果的度量;下面来看一下计算similarity的算法:
1、集合A、B之间的similarity:
2、欧式距离:向量p、q之间的similarity:
3、Cosine Similarity:向量A、B计算cos值
4、Pearson Correlation Coefficient:均值化
计算用户a及u之间的喜好similarity:
减去均值的原理:比如电影推荐,根据打过分的人及其看过的打分的电影、以及本人以前打过分的人电影,根据人与人之间的喜欢进行推荐预测,如下图所示:
可以看出alice和user1其之间的品味是差不多的,但是alice偏向于打高分,而user1偏向于打低分,当各自减去自己的均值之后,那么就可以发现其实他们之间的喜好关系是非常密切的。
5、Pearson Correlation Coefficient (expressed by z-score):标准化
6、Spearman’s rank correlation coefficient:
根据如下一个具体实例解释一下:计算V1、V2之间的similarity,按照各自其值先进行排序rank,然后按照排序之后的顺序序号向量在计算Pearson Correlation Coefficient:
为什么取rank,因为不同特征之间其值相差可能很大,如房屋价格决定因素:卧室数量和房屋面积,而房屋面积相对于卧室数量是非常庞大的一个数,直接各自计算在加和将导致各特征直接权重比例严重失调;所以先进行rank处理,相当于正则化处理;
一些挑战和不足:首先这里主要是基于文字内容,没有利用的实际情况中可能地图片、语言等相关信息;另一个这只是基于以前的个人偏好,推荐的只是一些以前item的替代品,而不是一些互补性的item难有惊喜之余(如看过甚至已经买了手机但还是一直推荐手机,这是现在大多数推荐系统的通病,包括天猫/京东等等大公司)