数据挖掘学习笔记6-聚类

一、分割模式
1.K-Means
为将数据分为k个簇,随机生成K个点,用这k个点将空间划分为k个区域,再将k个点移至各自区域的中心点,以此迭代,直至中心点不再变化。
特点:
1.简单,收敛快,一般只需迭代5次左右即可收敛(复杂度为O(tkn))
2.仅适用于数据簇相隔较远,类球形数据簇
3.容易掉入局部最优解,受初始值的影响较大,需不断尝试不同初始值
4.k值比较难确定
5.对噪点敏感(平均值)
2.Sequential Leader Clustering
用于处理数据流,每个数据只处理一次,不具体确定分为多少类,将第一个数据点分为一类,后续每个点根据到现有类的中心距离是否大于阈值(给定)来确定分给哪个类(后更新该类的中心点)或者自成一类。
特点:阈值不好确定。
二、基于模型聚类
1.混合高斯模型(gaussian mixture)
f(x)=Σαig(x,μi,Σi),αi≥0且Σαi = 1
EM算法(期望最大化算法):若已知样本值需求一个模型的参数,可先假设一个参数初值,后用贝叶斯算出每个样本的期望值,再用样本期望值加权优化模型参数,以此迭代求出模型参数。
注意:EM算法也会有局部最优点的问题,需采用不同初值多次尝试。
三、基于密度的聚类
DBSCAN:将样本点分为三类:1.核心点 2.边缘点 3.噪点
每一个簇从核心点开始不断膨胀将连通的样本收纳进自己的簇;噪点会被过滤掉
四、基于层次型聚类
Agglomerative methods(聚合模型):
1.一开始每一个样本均为一个簇
2.每个簇两两比较,找到距离最小的两个簇,进行合并
循环第二步可得到1-n(样本点)层模型
簇间距离可根据需要定义,会影响聚类结果。

阅读材料:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值