机器学习-聚类

最新推荐文章于 2020-11-19 15:30:37 发布

Insfan

最新推荐文章于 2020-11-19 15:30:37 发布

阅读量241

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YChanging/article/details/90382127

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

聚类：在无监督学习中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。聚类试图将数据集中的样本划分为若干个通常是不相交的子集。每个子集称为一个“簇”。

性能度量：聚类性能度量也称聚类“有效性指标”。与监督学习中的性能度量作用相似。要求“簇内相似度高”，“簇外相似度低”。

聚类性能度量大致有两大类：一类是将聚类结果与某个“参考模型”进行比较，称为“外部指标”；另一类是直接考察聚类结果而不利用任何参考模型，称为“内部指标”。

外部指标：Jaccard系数，FM指数，Rand指数，性能度量的结果值均在[0, 1]区间，值越大越好。

内部指标：DB指数，越小越好；Dunn指数，越大越好。（“簇内，簇间”的关系）

距离计算dist(. , .):

1.非负性：dist（，）>= 0

2.同一性：dist（，）= 0，当且仅当xi = xj;

3.对称性：dist（xi, xj）= dist(xj, xi);

4.直递性：dist(xi, xj) <=dist(xi, xk)+dist(xk, xj);（可不满足，称为非度量距离）

最常用：闵可夫斯基距离== Lp范数

我们通常将属性划分为连续属性和离散属性，属性的有无“序”关系更重要，闵科夫斯基距离可用于有序属性。

VDM（Value Difference Metric）:无序属性使用

VDM + 闵科夫斯基距离：处理混合属性。

属性重要性不同：加权闵科夫斯基距离。

原型聚类：亦称为“基于原型的聚类”，此类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中极为常用。通常情形下，算法先对原型进行初始化，然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式，将产生不同的算法。

k均值法：给定样本集，k均值算法针对聚类所得簇划分C最小化平方误差。刻画了簇内样本围绕簇均值向量的紧密程度。

学习向量量化（LVQ）:与k均值向量化类似，也是试图找到一组原型向量来刻画聚类结构，但与一般的聚类算法不同的是，LVQ假设数据样本带有类别标记，学习过程利用样本的这些监督信息来辅助聚类。

高斯混合聚类：与k均值、LVQ用原型向量来刻画聚类结构不同，高斯混合聚类采用概率模型来表达聚类原型，簇划分则由原型对应后验概率确定。每个高斯成分的混合系数由样本属于该成分的平均后验概率确定。

密度聚类：基于密度的聚类，此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下，密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

层次聚类：试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集的划分可采用‘自底向上’的聚合策略，也可采用‘自顶向下’的分拆策略。

AGNES：是一种自底向上的聚合策略。它先将每个样本看作一个初始聚类簇，然后在算法运行的每一步中找处距离最近的两个聚类簇进行合并，不断重复该过程，直至达到预设的聚类簇个数。关键是如何计算聚类簇之间的距离。

聚类簇之间距离决定：最小距离--单链接算法；最大距离--全链接算法；平均距离--均链接算法。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。