无监督学习2--基于层次和密度的聚类算法

本文介绍了无监督学习中的层次聚类算法,包括Hierarchical Clustering和BIRCH,以及它们的基本原理、优缺点和使用方法。同时,文章探讨了基于密度的聚类算法DBSCAN,讨论了其优势、不足以及如何应用在推荐系统中。
摘要由CSDN通过智能技术生成

无监督学习2–基于层次和模型的聚类算法

上次的无监督学习1笔记中学习了基于基于原型的聚类算法。今天来记录基于层次的聚类算法和基于密度的聚类算法。

一、基于层次的聚类算法
层次聚类法试图在不同层次对数据集进行划分,从而形成树形的聚类结构,数据集的划分可采用“自下向上”的聚合策略,也可以采用“自顶向下”的分拆策略。聚类的层次被表示成树形图。树根拥有所有样本的唯一聚类,叶子是仅有一个样本的聚类。
在这里插入图片描述
层次聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。它不需要输入参数,这是它的一个明显的优点,其缺点是终止条件必须具体指定。
与原型聚类和密度聚类不同,层次聚类试图在不同的“层次”上对样本数据集进行划分,一层一层地进行聚类。
典型的分层聚具体有:Hierarchical Clustering算法、 BIRCH算法等。
1.基本概念:判断两个簇之间的距离
在这里插入图片描述
层次聚类法涉及到一个很关键的地方就是判断簇之间的距离。判断的准则叫做链接准则。对于AgglomerativeClustering算法,scikit-learn有以上4种准则在调用层次聚类算法时可选。
计算两个组合数据点间距离常用的方法是:Single Linkage,Complete Linkage和Average Linkage,3种计算方法解析如下:
Single Linkage是将两个簇中最近的两个点间的距离作为这两个组合数据点的距离,该方法易受极端值的影响,两个不相似的点可能由于其中的某个极端的点距离较近而组合在一起。
Complete Linkage与Single Linkage相反,将两个簇中距离最远的两个点间的距离作为这两个簇的距离,Complete Linkage的问题也与Single Linkage相反,两个相似的点可能某个点原先所在的簇中有极端值而无法组合在一起。
Average Linkage的计算方法是计算两个簇中的每个点与其他所有点的距离并将所有距离的均值作为两个组合数据点间的距离,此方法计算量比较大,但结果比前两种方法更合理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值