[学习笔记]数据挖掘-week8

最新推荐文章于 2024-07-24 16:19:34 发布

午夜涂猪男

最新推荐文章于 2024-07-24 16:19:34 发布

阅读量584

点赞数

文章标签：数据挖掘概率论机器学习

本文链接：https://blog.csdn.net/qq_19078137/article/details/121519460

版权

推荐算法

学习视频：80240372X 数据挖掘：理论与算法（自主模式）

思维导图

大致分为两类算法：基于内容推荐，基于协同过滤推荐。以买书为例，基于内容的推荐算法会根据该书的内容，作者等信息推荐其他书籍。基于协同过滤的推荐算法会推荐我“朋友”所认为好的书。

TF-IDF

$\begin{aligned} & tf(t,d) = \frac{n_{t,d}}{\sum_k n_{k,d}}\\ & idf(t,D) = \log\frac{|D|}{|d\in D:t\in d|} \end{aligned}$

d为单个文档，D为所有文档，t为目标词汇，k为文档中词汇，idf的分母为包含特定搜索词的文档的个数。

$\begin{aligned} tf-idf(t,d,D) = tf(t,d)\times idf(t,D) \end{aligned}$

实际操作过程中会将所有文档整合成一个文档矩阵，行代表某个词汇，列代表某个文档，矩阵中的元素表示某个词汇在某个文档中出现的次数。

Vector Space Model

文档用向量表示后，即可用向量间的计算来查看文档的相似度。

$\begin{aligned} sim(p,q) = cos(\theta) = \frac{p\cdot q}{|p|\cdot|q|} \end{aligned}$

但是，由于近义词与多义词的问题，导致难以操作。

Collaborative Filtering

协同过滤算法在最开始时，会有一个打分矩阵，每一行为一个用户，每一列为某件商品，矩阵元素为该用户对商品的评分。

	I1	I2	I3
U1		0	2
U2	3	45

计算两个用户之间的相关性：

$\begin{aligned} W_{u,v} = \frac{\sum_{i\in I}(r_{u,i}-\bar{r}_u)(r_{v,i}-\bar{r}_v)}{\sqrt{\sum_{i\in I}(r_{u,i}-\bar{r}_u)^2}\sqrt{\sum_{i\in I}(r_{v,i}-\bar{r}_v)^2}} \end{aligned}$

通过相关性预测用户a对商品i的打分：

$\begin{aligned} P_{a,i} = \bar{r}_a + \frac{\sum_{u\in U}(r_{u,i}-\bar{r}_u)\cdot W_{a,u}}{\sum_{u\in U}|W_{a,u}|} \end{aligned}$

$\bar{r}$ 为某个用户对所有商品打分的平均值（只计算打了分数的商品）。该方式为User-Based CF，计算的是行与行之间的相关性。同样可以计算列于列之间的相关性，对应的方式为Item-Based CF。

$\begin{aligned} & W_{i,j} = \frac{\sum_{u\in U}(r_{u,i}-\bar{r}_i)(r_{u,j}-\bar{r}_j)}{\sqrt{\sum_{u\in U}(r_{u,i}-\bar{r}_i)^2}\sqrt{\sum_{u\in U}(r_{u,j}-\bar{r}_j)^2}}\\ & P_{a,i} = \frac{\sum_{j\in I}W_{i,j}\cdot r_{a,j}}{\sum_{j\in I}|W_{i,j}|} \end{aligned}$

午夜涂猪男

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[学习笔记]数据挖掘-week8

推荐算法学习视频：80240372X 数据挖掘：理论与算法（自主模式）大致分为两类算法：基于内容推荐，基于协同过滤推荐。以买书为例，基于内容的推荐算法会根据该书的内容，作者等信息推荐其他书籍。基于协同过滤的推荐算法会推荐我“朋友”所认为好的书。TF-IDFtf(t,d)=nt,d∑knk,didf(t,D)=log⁡∣D∣∣d∈D:t∈d∣\begin{aligned} & tf(t,d) = \frac{n_{t,d}}{\sum_k n_{k,d}}\\ &
复制链接

扫一扫