数据挖掘课笔记（八）

最新推荐文章于 2022-02-14 15:19:06 发布

晴崽噼里啪啦

最新推荐文章于 2022-02-14 15:19:06 发布

阅读量817

点赞数 1

分类专栏：数据挖掘笔记文章标签：数据挖掘人工智能聚类

本文链接：https://blog.csdn.net/weixin_42730271/article/details/121423283

版权

9 篇文章 1 订阅

订阅专栏

以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘：理论与算法》，本笔记仅用于个人学习。如有错误，感谢指正。

推荐算法

关于“推荐”：例如搜索引擎的RANK算法，能够把和搜索词更相关的网页推荐给用户。

推荐算法解决的是信息过载的问题，算法分为两大类：
1.内容：根据用户已有的内容。
2.协同过滤：根据类似用户的评价。
应用：精准广告投放、音乐推荐等。

TF: Term Frequency（频率）
$tf(t,d)=\frac{n_{t,d}}{\sum_{k}^{}n_{t,d}}$
目的：搜索词在本文档中越频繁越好。
IDF：Inverse Document Frequency
$idf(t,d)=log\frac{\left | D \right |}{\left | \left \{ d\epsilon D:t\epsilon d \right \} \right |}$
目的：搜索词在别的文档里越少越好。
结合TF和IDF：TF-IDF
$tf-idf(t,d,D)=tf(t,d)\times idf(t,D)$
目的：同时结合两个参数，实现两个目标。

理解：基于矩阵，矩阵是稀疏的，所以需要弥补空缺值，矩阵二维分别是：用户user，项item。
分类：
$\left\{\begin{matrix} Memory-Based\, CF \left\{\begin{matrix} User-Based\, CF\\ Item-Based\, CF \end{matrix}\right.\\ Model-Based\, CF \end{matrix}\right.$
其中：
1.user、item分别对应矩阵的两维；
2.Model Based CF 将问题转化为了分类问题。
问题：
1.Gray Sheep：非常独特的用户，很难找到与其相似的用户。
2.Shilling Attack：虚假数据的干扰。
3.Cold Start：冷启动，启动时的用户数目太少。