机器学习算法 08 聚类（01 聚类的本质_求相似度方式_余弦距离）

最新推荐文章于 2022-12-15 17:16:51 发布

熙仪繁华

最新推荐文章于 2022-12-15 17:16:51 发布

阅读量1k

点赞数

分类专栏：机器学习算法文章标签：聚类机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41672684/article/details/122377552

版权

机器学习算法专栏收录该内容

29 篇文章 2 订阅

订阅专栏

聚类和降维是机器学习无监督问题的一类任务：

一聚类的常见用途

• 知识发现发现事物之间的潜在关系

通过聚类：发现样本之间的相似性，也就是分组。

• 异常值检测

首先对样本进行聚类分组以后，我们即可求出各组的中心点，如果一个新的样本距离各中心点都比较远，那么我们就可以定义为它为异常值。

• 特征提取数据压缩的例子

特征提取：假设我们已经将原有数据集进行了聚类，那么我们就可将聚类后的类ID当成一个新的维度，作为特征。

数据压缩：图片处理重将聚类后的结果当作一个像素点处理，起到数据压缩的效果。

二回顾有监督机器学习&无监督机器学习

• 给定训练集 X 和标签Y

• 选择模型

• 学习（目标函数的最优化） - >生成模型（本质上是一组参数

根据生成的一组参数进行预测、分类等任务

无监督机器学习

• 拿到的数据只有X ，没有标签只根据X的相似程度做一些事情

• Clustering 聚类

• 对于大量未标注的数据集按照内在相似性来分为多个类别（簇），

目标：类别内相似度大，类别间相似小

• 也可以用来改变数据的维度，可以将聚类结果作为一个维度添加到训练集中

• 用one hot编码将维度缩减到类别数

• Dimensionality reduction 降维

数据间的相似度

• 每一条数据都可以理解为多维空间中的一个点

• 可以根据点和点之间的距离来评价数据间的相似度

• 欧氏距离

• 闵可夫斯基距离

• P=1 曼哈顿距离

• P=2 欧氏距离

• P=无穷切比雪夫距离那个维度差值最大就是哪个差值作为距离

余弦距离

• 将数据看做空间中的点的时候，评价远近可以用欧氏距离或者余弦距离

• 步骤：

• 将数据映射为高维空间中的点（向量）

• 计算向量间的余弦值

• 取值范围[-1,+1] 越趋近于1代表越相似，越趋近于-1代表方向相反，0代表正交

余弦距离评价文章相似

• 想要评价两篇文章是否相似，除了jaccard系数，还可以使用余弦距离

• 1.将文章分词

• 2.将文章转变为词向量（ TFIDF）

• 3.转换为词向量后就可以将文章映射到高维空间变为一个向量

• 4.文章之间的向量的余弦距离代表文章之间的相似程度

TF-IDF

TF 在给定的文档中某个词出现的概率

• 某篇文章内部某词出现的次数文章的总词数

• DF 语料库中包含词t的总文章数

• IDF 逆文件频率

• 代表这个词在语料库中的重要程度，，越稀有代表越重要，为了减低臭大街的词对于相似度的贡献

• TF-IDF:

数据相似度 Jaccard数据相似系数

• 用来衡量有限样本集之间的相似程度

• 当集合A,B都为空时，定义J（A,B）=1

• 取值范围？大小关系？

• Jaccard 距离

Jaccard 例子

• 假设用户喜欢的商品列表[8，9，17，25，4]

• 两个备选推荐哪个更好呢？

• [9,10,17,24,4,8] [8,9,25]

• 计算

J1=? J2=?

•可以应用于网页去重、文本相似度分析

回顾precision 和 rec

• PRECISION 给出的正确中有多少正确的

• Recall所有的正确中有多少给给出了

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法 08 聚类（01 聚类的本质_求相似度方式_余弦距离）

聚类和降维是机器学习无监督问题的一类任务：一聚类的常见用途 • 知识发现发现事物之间的潜在关系通过聚类：发现样本之间的相似性，也就是分组。• 异常值检测首先对样本进行聚类分组以后，我们即可求出各组的中心点，如果一个新的样本距离各中心点都比较远，那么我们就可以定义为它为异常值。• 特征提取数据压缩的例子特征提取：假设我们已经将原有数据集进行了聚类，那么我们就可将聚类后的类ID当成一个新的维度，作为特征。数据压缩：图片处理重将聚类后的结果当...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。