机器学习基础之聚类

最新推荐文章于 2021-05-23 20:26:53 发布

放羊郎

最新推荐文章于 2021-05-23 20:26:53 发布

阅读量445

点赞数

分类专栏：读后感人工智能人工智能技术文章标签：聚类无监督学习机器学习分类

本文链接：https://blog.csdn.net/suoxd123/article/details/88982746

版权

读后感同时被 3 个专栏收录

39 篇文章 0 订阅

订阅专栏

人工智能

29 篇文章 1 订阅

订阅专栏

人工智能技术

23 篇文章 0 订阅

订阅专栏

文章目录

性能度量
- 外部指标
- 内部指标
距离计算
- 有序属性
- 无序属性
原型聚类
密度聚类
层次聚类

转自： https://www.zhenxiangsimple.com/2019/04/02/tech-ml-jl/

聚类通常目标是将样本分为几个同的类别，而分类前的样本数据本身通常并没有对应的类别，也称为无监督学习，或者说样本是在聚类后才知道了哪些样本属于一类，而被分好的类别名称是需要用户根据其特征来命名，在分类前是不知道的。

性能度量

对聚类后的结果进行有效性评估的一种度量方法，通常希望聚类后的样本在类内部相似度高，在不同类之间相似度低，常用的衡量指标有两种：

外部指标

外表指标指，将聚类结果跟另一个参考模型进行比较，常用的评价指标有：

Jaccard系数（JC：Jaccard Coefficient）
FM指数（FMI：Fowlkes and Mallows Index）
Rand指数（RI：Rand Index）

内部指标

内部指标指，直接基于聚类结果进行性能的评估，常用的评估指标有：

DB指数（DBI：Davies-Bouldin Index）
Dunn指数（DI：Dunn Index）

距离计算

有序属性

对于有序属性的样本之间距离的计算，常用的有：

闵可夫斯基距离： $dist_{mk}(x_i,x_j)=(\sum_{u=1}^{n}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}$
欧氏距离（p=2）： $dist_{ed}(x_i,x_j)=||x_i-x_j||^2=\sqrt{\sum_{u=1}^{n}|x_{iu}-x_{ju}|^2}$
曼哈顿距离（p=1）： $dist_{man}(x_i,x_j)=||x_i-x_j||=\sum_{u=1}^{n}|x_{iu}-x_{ju}|$

无序属性

$VDM_p(a,b) = \sum_{i=1}^{k}|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|^p$

原型聚类

原型聚类顾名思义就是基于某个原型进行聚类的方法，根据不同的原型有不同的聚类算法，常用的原型算法如下：

k均值算法

核心原理就是不断求各样本到当前各类别之间的距离，每个样本选择距离最近的类别，每次所有样本分类结束后重新求得各类别的中心位置，再继续迭代，直到所有样本分类不再变化。
$E=\sum_{i=1}^{k}\sum_{x\in{C_i}}||x-u_i||^2$

学习向量量化

核心原理跟k均值算法类似，区别仅在与对每个类别的调整方式，k均值是对所有样本计算结束后对所有样本求均值，而学习向量是根据每个样本计算完成后立即调整类别的中心位置，将样本归类的类别向当前样本靠近，其他所有类别远离当前样本。

高斯混合聚类

核心原理跟k均值算法一致，区别在于其距离的计算不是使用欧氏距离，而是使用概率模型，认为样本服从高斯分布，从而使用对应的高斯分布对各样本计算，每次计算万所有样本后根据所有样本的计算结果求得新的高斯分布函数，直到达到计算次数或偏差达到阈值内。其中 $u_i,\Sigma_i,\alpha_i$ 分别表示第i个高斯分类的均值、协方差矩阵和权重。
$P(x)=\sum_{i=1}^k\alpha_ip(x|u_i,\Sigma_i)$