聚类

PS:最近好懒,一丢丢都不想敲公式,所以本章就以核心思想及算法流程的思想来介绍了。

1 聚类任务

聚类是一种无监督的学习方式,试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster),每个簇可能对应于一些潜在的类别。
聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。

2 原型聚类

原型聚类假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解。

2.1 k均值算法

给定样本集,k均值算法所针对聚类所得簇划分最小化平方误差
(1)
其中是簇的均值向量,(1)式刻画了簇内样本围绕均值向量的紧密程度,E值越小则簇内样本相似度越高。
(1)式的求解是一个NP难的问题,因此采用贪心策略,通过迭代来近似求解(1)


2.2 学习向量量化

学习向量量化(Learning Vector Quantization, LVQ)试图找到一组原型向量来刻画聚类结构,但与一般聚类算法不同的是,LVQ假设数据样本带有类别标记,学习过程中利用样本的这些监督信息来辅助聚类。

2.3 高斯混合聚类

高斯混合聚类采用概率模型来表达聚类原理。
对于服从高斯分布的向量,其概率模型密度函数为:
(2)
其中u是n为均值向量,为nXn的协方差矩阵。
定义高斯混合模型分布
(3)
若训练集,令随机变量表示生产样本的高斯混合成分,其取值未知,则
(4 )

图中的式(9.30)即(4),(9.31)即

3 密度聚类

该类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。
DBSCAN是一种著名的密度聚类算法,其核心思想为:用一个点的邻域内的邻居点数衡量该点所在的空间密度。其详细原理可参考http://blog.csdn.net/itplus/article/details/10088625

4 层次聚类

层次聚类(hierarchical clustering)试图在不同层次对数据记性划分,从而形成树形的聚类结构,数据集的划分可采用“自底而上”的聚类策略,也可采用“自顶向下”的分拆策略。
AGNES是一种采用自底向上聚合策略的层次聚类算法,其核心思想是先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。

其中d(.,.)为距离。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

勤劳的凌菲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值