基于内容的推荐系统

主要参考:
论文The Krakatoa Chronicle - An Interactive, Personalized, Newspaper on the Web

1、首先举一个具体实例:给用户推荐电影(相似:新闻/淘宝/旅馆等等);
内容:用户及用户给电影的评分,组成的矩阵形式如下:
(实际情况中也是包含大量缺省值的)
在这里插入图片描述
下面是针对如上实际问题进行的一些概念、理论及算法的研究:

以新闻推荐为例进行具体探讨:

1、属性空间:就是词汇表;
2、如何代表一个用户偏好
隐性:读、点击、保存、收藏等等;
显性:顶、踩、评论等等;
3、如何表示一篇文章:文章中有很多词,如何表示每个词的对于文章代表性权重的大小,即如何识别keywords:
Keywords有两个要素:一个是这些词在同一个文档出现频率大;另一个是这些词在其他文档出现频率不大(防止定冠词等通用词的普遍性)

1)TFIDF:Term Frequency * Inverse Document Frequency
Term frequency: Number of occurrences of a term in the document
Inverse Document frequency: but not appear in other documents:log (documents / documents with term) (分母:包含这些词的文档个数,其越大,最后TFIDF乘积越小)

4、有了文章词向量及用户偏好词向量,如何找到他们之间的相似性,也即这篇文章与这个用户喜好的相关性大小的度量:

1)首先考虑一个新闻的通用价值大小的恒量(也即对所有用户来说他的价值大小):
同样包括两个方面属性:
一个是其关注度/话题热度(顶/踩个数)的表示;
另一个是其时效性的表示(也就是越新其价值越大);

其计算公式如下(这只是其中一种比较好的度量方式,其他度量方法有机会再与大家分享学习):
在这里插入图片描述
其中U、D表示顶和踩的个数(取log的理解:越往后顶和踩的价值越小,如人云亦云等等),t_post表示时间;

2)相似性度量算法:
有了如上新闻通用价值的恒量,那么其值乘上Similarity (this news, this user),就是最终的推荐结果的度量;下面来看一下计算similarity的算法:

1、集合A、B之间的similarity
在这里插入图片描述
2、欧式距离:向量p、q之间的similarity:
在这里插入图片描述
3、Cosine Similarity:向量A、B计算cos值
在这里插入图片描述
4、Pearson Correlation Coefficient:均值化
计算用户a及u之间的喜好similarity:
在这里插入图片描述
减去均值的原理:比如电影推荐,根据打过分的人及其看过的打分的电影、以及本人以前打过分的人电影,根据人与人之间的喜欢进行推荐预测,如下图所示:
在这里插入图片描述
可以看出alice和user1其之间的品味是差不多的,但是alice偏向于打高分,而user1偏向于打低分,当各自减去自己的均值之后,那么就可以发现其实他们之间的喜好关系是非常密切的。
5、Pearson Correlation Coefficient (expressed by z-score):标准化
在这里插入图片描述
6、Spearman’s rank correlation coefficient:
根据如下一个具体实例解释一下:计算V1、V2之间的similarity,按照各自其值先进行排序rank,然后按照排序之后的顺序序号向量在计算Pearson Correlation Coefficient:
在这里插入图片描述
为什么取rank,因为不同特征之间其值相差可能很大,如房屋价格决定因素:卧室数量和房屋面积,而房屋面积相对于卧室数量是非常庞大的一个数,直接各自计算在加和将导致各特征直接权重比例严重失调;所以先进行rank处理,相当于正则化处理;

一些挑战和不足:首先这里主要是基于文字内容,没有利用的实际情况中可能地图片、语言等相关信息;另一个这只是基于以前的个人偏好,推荐的只是一些以前item的替代品,而不是一些互补性的item难有惊喜之余(如看过甚至已经买了手机但还是一直推荐手机,这是现在大多数推荐系统的通病,包括天猫/京东等等大公司)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值