机器学习之聚类(一)

一、聚类定义

聚类定义:
聚类是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;
一种无监督学习
相似度计算方法总结:
在这里插入图片描述
余弦相似度与Pearson相似系数:
在这里插入图片描述
相关系数即将x、y坐标向量各自平移到原点后的夹角余弦;也可以说明文档间求距离使用夹角余弦——物理量表征了文档去均值化后的随机向量间相关系数;
聚类的基本思想:
在这里插入图片描述

二、k-Means算法

k-Means算法定义:
在这里插入图片描述
k-means分类数据过程样例图:
在这里插入图片描述
k-Means公式化解释:
在这里插入图片描述
k-Means聚类方法总结:
k-Means对初值选取敏感;可以作为其他聚类方法基础算法,如谱聚类;
k-Means优点:
解决聚类问题的经典算法,简单、快速;
对处理大数据集,该算法保持可伸缩性和高效率;
当簇近似为高斯分布时,效果较好;
k-Means缺点:
在簇的平均值可被定义情况下才能使用,可能不适用于某些应用;
必须事先给出K(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
不适合于发现非凸形状的簇或者大小差别很大的簇;
对噪声和孤立点数据敏感;

三、聚类衡量指标

Canopy算法:
在这里插入图片描述
衡量指标:
在这里插入图片描述
ARI定义: 在这里插入图片描述
AMI定义:
在这里插入图片描述
轮廓系数:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值