关于距离，K-means，层次聚类，密度聚类以及谱聚类

rexyang97

于 2021-06-29 13:33:22 发布

阅读量2.3k

点赞数 1

分类专栏：机器学习聚类算法模型评估文章标签：聚类算法 kmeans算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rexyang97/article/details/118327780

版权

目录

相似度/距离

衡量聚类（轮廓系数）

之前博客中讲的模型基本上都是分类以及回归模型，他们都是属于有监督学习的，意为所有的样本都有一个结果值提供，我们所要做的就是在原有结果值的指导（监督）下使机器拟合结果，从而学习规律。而聚类是无监督学习，就是指没有一个结果值的提供。聚类本身需要做的是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。

相似度/距离

那么如何判断两个样本之间的距离或者是相似度呢。

最简单想法就是

闵可夫斯基距离（Minkowski）：

$dist(X,Y)=\left ( \sum_{i=1}^{n}\left | x_{i}-y_{y} \right |^{p} \right )^{\frac{1}{p}}$

当p为1时即曼哈顿距离，也就是L1norm。p为2时为欧氏距离，也就是L2norm

闵可夫斯基距离主要是以空间中两点的距离作为度量。而如果我们想把样本表达成向量以他们的角度为相似性的度量，我们就可以用

余弦相似度(cosine similarity)：

$cos(\theta )=\frac{a^{T}b}{\left | a \right |\cdot \left | b \right |}$
在实际的应用时，我们经常会把数据做标准化，

皮尔逊相似系数(Pearson)就是把两组数据标准化处理之后的向量夹角的余弦。

$\rho _{XY}=\frac{cov(X,Y)}{\sigma _{X}\sigma _{Y}}=\frac{\sum_{i=1}^{n}(x_{i}-\mu_{x})(y_{i}-\mu_{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\mu_{x})^{2}}\sqrt{\sum_{i=1}^{n}(y_{i}-\mu_{y})^{2}}}$

而当样本可以表达为集合的时候（比如推荐清单，购买清单等），我们则可以使用

杰卡德相似系数(Jaccard) 来表达样本间的相似性：

$J(A,B)=\frac{\left |A\cap B \right |}{\left | A\cup B \right |}$

对于分类问题我们通常使用相对熵（K-L距离）

$D(p||q)=E_{p(x)}log\frac{p(x)}{q(x)}$

k-Means算法

k-Means算法，也被称为k-平均或k-均值，是一种广泛使用的聚类算法，或者成为其他聚类算法的基础。
假定输入样本为 $S=x_{1},x_{2}...x_{n}$ ，则算法步骤为:

选择初始的k

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。