基于内容的推荐系统

最新推荐文章于 2024-05-13 07:45:00 发布

Enjoy_endless

最新推荐文章于 2024-05-13 07:45:00 发布

阅读量1k

点赞数

分类专栏： data mining

本文链接：https://blog.csdn.net/Enjoy_endless/article/details/84139252

版权

data mining 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

主要参考：
论文The Krakatoa Chronicle - An Interactive, Personalized, Newspaper on the Web

1、首先举一个具体实例：给用户推荐电影(相似：新闻/淘宝/旅馆等等)；
内容：用户及用户给电影的评分，组成的矩阵形式如下：
（实际情况中也是包含大量缺省值的）
在这里插入图片描述
下面是针对如上实际问题进行的一些概念、理论及算法的研究：

以新闻推荐为例进行具体探讨：

1、属性空间：就是词汇表；
2、如何代表一个用户偏好：
隐性：读、点击、保存、收藏等等；
显性：顶、踩、评论等等；
3、如何表示一篇文章：文章中有很多词，如何表示每个词的对于文章代表性权重的大小，即如何识别keywords：
Keywords有两个要素：一个是这些词在同一个文档出现频率大；另一个是这些词在其他文档出现频率不大(防止定冠词等通用词的普遍性)

1）TFIDF：Term Frequency * Inverse Document Frequency
Term frequency: Number of occurrences of a term in the document
Inverse Document frequency: but not appear in other documents：log (documents / documents with term) (分母：包含这些词的文档个数，其越大，最后TFIDF乘积越小)

4、有了文章词向量及用户偏好词向量，如何找到他们之间的相似性，也即这篇文章与这个用户喜好的相关性大小的度量：

1）首先考虑一个新闻的通用价值大小的恒量(也即对所有用户来说他的价值大小)：
同样包括两个方面属性：
一个是其关注度/话题热度(顶/踩个数)的表示；
另一个是其时效性的表示(也就是越新其价值越大)；

其计算公式如下(这只是其中一种比较好的度量方式，其他度量方法有机会再与大家分享学习)：
在这里插入图片描述
其中U、D表示顶和踩的个数(取log的理解：越往后顶和踩的价值越小，如人云亦云等等)，t_post表示时间；

2）相似性度量算法：
有了如上新闻通用价值的恒量，那么其值乘上Similarity (this news, this user)，就是最终的推荐结果的度量；下面来看一下计算similarity的算法：

1、集合A、B之间的similarity：
在这里插入图片描述
2、欧式距离：向量p、q之间的similarity：

3、Cosine Similarity：向量A、B计算cos值

4、Pearson Correlation Coefficient：均值化
计算用户a及u之间的喜好similarity：

减去均值的原理：比如电影推荐，根据打过分的人及其看过的打分的电影、以及本人以前打过分的人电影，根据人与人之间的喜欢进行推荐预测，如下图所示：
在这里插入图片描述
可以看出alice和user1其之间的品味是差不多的，但是alice偏向于打高分，而user1偏向于打低分，当各自减去自己的均值之后，那么就可以发现其实他们之间的喜好关系是非常密切的。
5、Pearson Correlation Coefficient (expressed by z-score)：标准化
在这里插入图片描述
6、Spearman’s rank correlation coefficient：
根据如下一个具体实例解释一下：计算V1、V2之间的similarity，按照各自其值先进行排序rank，然后按照排序之后的顺序序号向量在计算Pearson Correlation Coefficient：

为什么取rank，因为不同特征之间其值相差可能很大，如房屋价格决定因素：卧室数量和房屋面积，而房屋面积相对于卧室数量是非常庞大的一个数，直接各自计算在加和将导致各特征直接权重比例严重失调；所以先进行rank处理，相当于正则化处理；

一些挑战和不足：首先这里主要是基于文字内容，没有利用的实际情况中可能地图片、语言等相关信息；另一个这只是基于以前的个人偏好，推荐的只是一些以前item的替代品，而不是一些互补性的item难有惊喜之余(如看过甚至已经买了手机但还是一直推荐手机，这是现在大多数推荐系统的通病，包括天猫/京东等等大公司)

Enjoy_endless

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于内容的推荐系统

主要参考：论文The Krakatoa Chronicle - An Interactive, Personalized, Newspaper on the Web1、首先举一个具体实例：给用户推荐电影(相似：新闻/淘宝/旅馆等等)；内容：用户及用户给电影的评分，组成的矩阵形式如下：（实际情况中也是包含大量缺省值的）下面是针对如上实际问题进行的一些概念、理论及算法的研究：以新闻推荐为...
复制链接

扫一扫

专栏目录