统计学习方法---聚类分析

最新推荐文章于 2024-06-13 09:58:25 发布

leemusk

最新推荐文章于 2024-06-13 09:58:25 发布

阅读量4.9k

点赞数

分类专栏： # 统计学习方法

本文链接：https://blog.csdn.net/leemusk/article/details/106128079

版权

聚类的简单了解

分类方法是属于有监督学习，聚类是属于无监督学习。K均值聚类是最基础和最常用的聚类算法。它的基本思想是，通过迭代方法寻找K个簇的一种划分方案。通过最小化损失函数来获取最有的划分方案，损失函数可以定义为各个样本距离所属簇中心点的误差平方和。使用的距离通常为欧式距离。

聚类分为硬聚类和软聚类：

硬聚类：一个样本只能属于一个类
软聚类：一个样本可以属于多个类

类是样本的子集，比如有如下基本定义：
在这里插入图片描述
描述类的特征的指标有中心、直径、散布矩阵、协方差矩阵

聚类的核心概念

聚类的核心是：相似度或距离

距离

a. 欧式距离
$d_{ij} = (\sum_{k=1}^m|x_{ki} - x_{kj}|^2)^{\frac 1 2}$

缺陷：

受量纲的影响明显
未考虑各变量方差的不同
容易受到异常值的影响
没有考虑指标之间的相关性

作为改进，可以考虑将数据进行标准化或归一化后在计算距离

b. 闵可夫斯基距离
$d_{ij} = (\sum_{k=1}^m|x_{ki} - x_{kj}|^p)^{\frac 1 p} \\ p \ge 1$
p = 2 时，闵式距离就为欧式距离
p = 1 时，称为曼哈顿距离
p = 无穷时，称为切比雪夫距离， $d_{ij} = max_k|x_{ki} - x_{kj}|$

缺点：

闵式距离与各指标的量纲有关
闵式距离的定义没有考虑各个变量之间的相关性与重要性

实际上，闵式距离与欧式距离一样，是把各个变量都同等看待，将两个样本在各个变量上的离差进行了综合。

以上方法在实际应用中有较多问题，由此引出了以下的几种方法，弥补了欧式或闵式距离的缺点。

c. 兰式距离
$d_{ij} = \frac {1} {m} \sum_{k=1}^m \frac {|x_{ki} - x_{kj}|} {x_{ki} + x_{kj}}$

缺点：

没有考虑指标之间的相关性
要求变量观测值必须大于0，以保证距离总是正值

优点：

对大的奇异值不敏感特别使用于高度偏倚的数据
考虑了变量的个数

d. 马哈拉诺比斯距离
$d_{ij} = [(x_i - x_j)^TS^{-1}(x_i-x_j)]^{\frac 1 2}$
S是样本的协方差矩阵

优点：

考虑各个分量之间的相关性
与各个分量的尺度无关

e. 斜交空间距离
$d_{ij} = [\frac 1 {p^2} \sum_{h=1}^m \sum_{k=1}^m (x_{ih} - x_{jh})(x_{ik}-x_{jk}) \gamma_{hk}]^{\frac 1 2}$
$\gamma_{hk}：$ 两变量标准化处理后两者之间的相关系数，当各变量不相关时，斜交变量退化为欧式距离。

相似度

a 相关系数
$r_{ij} = \frac {\sum_{k=1}^m(x_{ki} - x_i)(x_{kf} - x_f)} {[\sum_{k=1}^m(x_{ki} - x_i)^2(x_{kj} - x_j)^2]^{\frac 1 2}}$

$∣ r ∣ < = 1$ ，相关系数的绝对值越接近于1，表示样本越相似；越接近于0，表示样本越不相似，但注意的是这里的不相似是指没有线性相似关系，但可能有非线性相关关系。

b. 夹角余弦

最低0.47元/天解锁文章

leemusk

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法---聚类分析

聚类分类方法是属于有监督学习，聚类是属于无监督学习。K均值聚类是最基础和最常用的聚类算法。它的基本思想是，通过迭代方法寻找K个簇的一种划分方案。通过最小化损失函数来获取最有的划分方案，损失函数可以定义为各个样本距离所属簇中心点的误差平方和。使用的距离通常为欧式距离。聚类的核心概念：相似度或距离聚类方法：a. 欧式距离dij=(∑k=1m∣xki−xkj∣2)12d_{ij} = (\sum_{k=1}^m|x_{ki} - x_{kj}|^2)^{\frac 1 2}dij=(k=1∑m
复制链接

扫一扫

专栏目录