机器学习常见的聚类模式

最新推荐文章于 2024-09-04 14:24:09 发布

weixin_33716941

最新推荐文章于 2024-09-04 14:24:09 发布

阅读量167

点赞数

文章标签：人工智能 python java

原文链接：https://my.oschina.net/u/2511129/blog/782206

版权

2019独角兽企业重金招聘Python工程师标准>>>

层次聚类（Hierarchical methods）

主要思想：

试图在不同层次上对数据集进行划分，从而形成树形的聚类结构。数据集的划分可以采用“自底向上”的聚合策略，开始将每个对象作为单独的一个组，然后逐次合并相近的对象或组，直到所有的组合并为一个组，或者满足某个终止条件；也可采用“自顶向下”的分拆策略，开始将所有的对象置于一个簇中。在每次相继迭代中，每个簇被划分成更小的簇，直到最终每个对象在单独的一个簇中，或者满足某个终止条件。

图7 层次聚类之AGNES

1）优点： 适用于任意形状和任意属性的数据集；灵活控制不同层次的聚类粒度，强聚类能力。

2）缺点： 大大延长了算法的执行时间，不能回溯处理。

划分聚类（Partition-based methods）

主要思想：

给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K<N。对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的纪录越远越好。

图8 划分聚类之K-Means

1）优点：应用最为广泛；收敛速度快；能扩展以用于大规模的数据集。

2） 缺点：倾向于识别凸形分布、大小相近、密度相近的聚类；中心选择和噪声聚类对结果影响大。

密度聚类（Density-based methods）

主要思想：

大部分划分方法基于对象之间的距离进行聚类。这样的方法只能发现球状簇，儿砸发现任意形状的簇时遇到了困难。基于密度的聚类方法假设聚类结构能通过样本分布的紧密程度确定，其主要思想是：只要“邻域”中的密度（对象或数据点的数目）超过某个阈值，就继续增长给定的簇。通常情况下，密度聚类算法从样本的角度来考察样本间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。