聚类算法知识点整理

本文详细介绍了多种聚类算法,包括K-means、KNN、DBSCAN和GMM等,探讨了它们的工作原理、优缺点及应用场景。K-means算法对初始点敏感,适合团状数据,而DBSCAN对噪声点处理较好。KNN则是一种基于距离的分类算法,K值的选择对结果有直接影响。此外,文章还讨论了距离度量在聚类中的作用,如欧式距离和曼哈顿距离。
摘要由CSDN通过智能技术生成

聚类分析能够解决的问题
数据集可以分为几类、每个类别有多少样本量、不同类别中各个变量的强弱关系如何、不同类别的典型特征是什么、基于类别划分的其他应用(如图片压缩)

知识点1:Kmeans流程,时间复杂度,优缺点,影响因素,改进方法
知识点2:KNN训练边界、KNN流程、K值选择方法、应用场景
知识点3:聚类应用场景,分类,原理,评价指标
知识点4:相似性度量、距离度量
聚类
1. K-means聚类
目标:最小化平方误差 E=ki=1xCi||xμi||22 E = ∑ i = 1 k ∑ x ∈ C i | | x − μ i | | 2 2 (在sklearn中inertia_参数为均方差值,越小表示k越好)
对于已有的未标记的样本,同时给定结果聚类的个数k;目标是把比较接近的样本归为一类,总共得到k个cluster。
Kmeans中初始化k个中心点(Kmeans对中心点的选取比较敏感)(随机选择或指定k个样本点),然后计算每个样本到k个选定的样本中心点的距离,再比较待聚类样本到初始样本点的距离,将待聚类的样本指定为距离较近的各个类别,重新计算聚类中心;重复迭代以上过程。
收敛条件:
(1)聚类中心不再发生变化
(2)每个样本到对应聚类中心的距离之和不再有很大的变化
优缺点:
(1)对初始样本点的选取敏感;对异常点免疫效果不佳;对团状数据点效果较好,对带状效果不好
Kmeans和Kmeans++:前者随机选点,后者选最远的K个点作为初始点
(2)线性增长的聚类算法,不适用于海量数据
改进方法:MiniBatchKMeans: 计算过程中不必使用所有的数据样本,而是从不同类别的样本中抽取一部分样本(而非全部样本)作为代表参与聚类算法过程。
数据异常对结果的影响
(1)数据的异常值。需要做异常点的检测和处理
(2)数据的异常量纲。变量归一化或者标准化处理
2. LVQ 学习向量量化
过程:初始化原型向量;随机选取一个有标记的训练样本,找出与其距离最近的原型向量,并根据两者的类别标记是否一直来对原型向量进行相应的更新
停止条件:
(1)达到最大迭代轮数
(2)原型向量更新很小或者不再更新
LVQ是SOM基于监督信息的扩展
【挖个坑,等补充了神经网络来更新下SOM】
3. DBSCAN密度聚类
简单来说,就是初始选择一个点,找它所有在邻域参数内的样本点(核心对象),任选一个核心对象,找出其密度可达(即存在一条路径使路径上的相邻的样本点都在邻域上)的样本,直到找不到为止,则生成第一个样本。
可以类比成传销= =
DBSCAN算法的出发点是基于密度寻找被低密度区域分离的高密度空间。
与Kmeans的比较
对原始数据的分布规律没有明显要求
无需指定聚类数量,对结果的先验要求不高
DBSCAN可区分核心对象、边界点和噪音点,因此对噪声的规律效果好,能有效应对数据噪点
缺点
对于高维问题,基于Eps(半径)和MinPts(密度)的定义是个很大的问题
当簇的密度变化太大时,聚类结果较差
当数据量增大时,要求较大的内存支持,I/O消耗也很大
4. GMM高斯混合模型
简单地说,k-means 的结果是每个数据点被 assign 到其中某一个 cluster 了,而 GMM 则给出这些数据点被 assign 到每个 cluster 的概率,又称作 soft assignment 。
初始参数:样本点属于各个高斯函数的概率,以及每个高斯函数的均值和方差(参数随机给定)
求解过程:
EM算法
E-step: 由已知的均值和方差估算在该参数下的样本点的分布
M-step:由样本点的分布再求均值和方差
优缺点:
优点:多个分布的组合,EM求解,速度快,最大似然概率
缺点:对初始化值敏感,容易陷入局部最优,需要指定k个高斯分布;对非凸分布数据集效果不好
5. 距离的度量
* 幂距离。针对不同的属性给予不同的权重值,决定其属于那个簇
distmk(xi,xj)=(nu=1|xiuxju|p)1r

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值