机器学习之层次聚类

次聚类引入

层次聚类跟kmeans聚类一样不适合非球样本,

密度聚类DBSCAN就可以很好的聚类非球样本并且密度聚类可以非常方便地发现数据中的异常点。

次聚 实质 算各簇内 本点之 的相似度,并通 相似度的 果构建凝聚或分
裂的 。凝聚 是一种自底向上的造 树过 程,起初将每一个 本当作一个 ,然后通 过计
或簇 的距离 本合并,最 形成一个包含所有 本的大簇;分裂 与凝聚
好相反,它是自 向下的造 树过 程,起初将所有 本点聚 一个 ,然后利用相似度的方法将
大簇 行分割,直到所有 一个 类为 止。
 

的距离度量

1 .最小距离法
最小距离法是指以所有簇 间样 本点距离的最小 距离的度量,但是 方法非常
容易受到极端 的影响。
2 .最大距离法
最大距离法是指以所有簇 间样 本点距离的最大 距离的度量,同 方法也
容易受到极端 的影响。
3 .平均距离法
最小距离法和最大距离法都容易受到极端 的影响,可以使用平均距离法 如上两种方
法做折中 理,即以所有簇 间样 本点距离的平均 距离的度量。
 

次聚的步

 
在理解有关点与点、点与簇和簇与簇之 的距离度量 准之后,就需要 一步掌握
算法是如何 实现样 本点聚 的。本小 详细 有关 次聚 算法的操作步 ,并通
过举 明的方式加 的理解。 次聚 的步 如下:
1 )将数据集中的每个 本点当作一个 类别
2 算所有 本点之 的两两距离,并从中挑 出最小距离的两个点构成一个簇。
3 继续计 算剩余 本点之 的两两距离和点与簇之 的距离,然后将最小距离的点或簇
合并到一起。
4 )重复步 2 )和( 3 ),直到 足聚 的个数或其他 定的条件,便 束算法的运行。
如上的 4 个步 光用文字 明可能理解起来比 ,接下来通 一个 简单 的例子形象地
次聚 法的整个聚 类过 程。
 

参数

cluster.AgglomerativeClustering(n_clusters=2, affinity='euclidean', memory=None,
connectivity=None, compute_full_tree='auto', linkage='ward')
n_clusters :用于指定 本点聚 的个数,默 认为 2
affinity :用于指定 距离的衡量指 ,可以是欧氏距离、曼哈 距离、余弦相似度
等,默 认为 'euclidean' ;如果参数 linkage 'ward' 参数只能 欧氏距离。
memory :是否指定 果的 出,默 认为 否;如果 参数 一个路径,最 将把
程的 出到指定的路径中。
connectivity :用于指定一个 接矩
compute_full_tree :通常情况下,当聚 类过 程达到 n_clusters ,算法就会停止,如果
True 表示算法将生成一棵完整的凝聚
linkage :用于指定簇 距离的衡量指 ,默 认为 'ward' ,表示最小距离法;如果
'complete' 表示使用最大距离法;如果 'average' 表示使用平均距离法。
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值