【阅读记录】聚类(《机器学习》第9章)

本文详细探讨了机器学习中无监督学习的聚类问题,包括聚类指标的外部与内部衡量标准,如Jaccard系数、FM指数、Rand指数、DB指数和Dunn指数。此外,介绍了距离度量的重要性,如闵可夫斯基距离和VDM,讨论了聚类方法如k均值、学习向量量化和高斯混合聚类的原理和实现。
摘要由CSDN通过智能技术生成

前言:

{

    之前《机器学习》[1]第8章还有几个习题没搞明白(8.1和8.2我甚至连题目的意思都还没看懂,可见我的水平是有多捉急),这次就先进行第9章的内容,毕竟时间宝贵(也许有一天突然开窍了也说不定)。

}

 

正文:

{

    聚类指标和距离度量:

    {

        聚类是一种无监督学习。度量聚类效果的指标有两类:外部指标内部指标

        外部指标的使用需要配合一个参考模型(或者说标签,不过这样还算是无监督学习吗?)。书上介绍了三种外部指标:Jaccard系数FM指数Rand指数

        内部指标的使用无需参考模型(无需标签)。书上给出了两种内部指标:DB指数Dunn指数

        具体的指标公式我就跳过了,需要时我就去查资料,在这只记录名字。

 

        部分指标的计算涉及距离度量。像物理距离一样,距离度量需要满足4个距离性质:非负性(距离不能为负),同一性(自己到自己的距离是0),对称性(a到b的距离=b到a的距离=a和b之间的距离),和直递性(a到c的距离<=a到b的距离+b到c的距离)。

        最常用的距离度量是闵可夫斯基距离,见式(9.18)。

       

        闵可夫斯基距离包括了欧式距离(p=2)和曼哈顿距离(p=1)。

        闵可夫斯基距离的缺点就是样本的属性必须是有序属性有序属性是能够比较距离的属性,例如升高体重等数值属性。与它相对应的是无序属性,例如名称等标签属性。

        书中给出了无序属性的距离度量:VDM,见式(9.21)。

       

        式(9.21)中代表属性u取a值的样本在样本簇i中的数量,代表属性u取a值的样本的总数。值得注意的是,VDM描述的是一种离散属性值之间的距离,它的参数是具体的属性值而不是样本。另外,有方法把标签特征转换为数值特征[2]中正文的第一部分。

        结合闵可夫斯基距离VDM,一种复合距离被形成了,见式(9.22)。

       

        式(9.22)中样本的有序属性被排到第一到第个,后面的则是无序属性。

        另外,还可以为每种属性设置权值。

        有些度量被称为非度量距离,其在某种程度上代表样本的相似性,但不属于距离度量,例如孪生网络[3]的输出。

 

    聚类过程:

    {

        之后作者介绍了三种聚类方式:原型聚类密度聚类层次聚类

        原型聚类

        {

            原型聚类<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值