聚类算法

最新推荐文章于 2023-07-15 09:23:53 发布

nextdoor6

最新推荐文章于 2023-07-15 09:23:53 发布

阅读量642

点赞数

分类专栏： AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nextdoor6/article/details/83654959

版权

AI 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

分类和聚类

聚类：把相似的东西分成一组。

常用算法

K-means算法

首先需要制定K值，即簇的个数，也即分成的堆数。

质心，也即数据的均值，指向量各维求平均即可。

距离的度量，常用欧几里得距离和余弦相似度计算。

优化目标：

优点

简单、快速、适合常规数据

缺点

K值比较难指定，复杂度和样本呈线性关系，样本越多，计算时约复杂；很难发现任意形状的簇。

DBSCAN算法

核心对象：若某个点的密度达到算法设定的阀值则称为核心点，即r领域内点的数量不小于minPts。

$\epsilon$ -领域的距离阀值：设定的半径r

直接密度可达：若某点p在点q的r领域内，且q是核心点则p-q直接密度可达。

密度可达：若有一个点的序列q0,q1...qk,对任意qi-qi-1是直接密度可达的，则称从q0到qik密度可达，这实际上sh是密度可达的传播。

密度相连：若从核心点p出发，点p和点k都是密度可达的，则称点q和点k是密度相连的。

边界点：属于某一个类的非核心点，不能发展下线的点。

噪声点：不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达的。

工作流程

参数D：输入数据集

参数 $\epsilon$ ：指定半径

MinPts:密度阀值，一个簇里面最少样本个数。

参数的选择：

半径 $\epsilon$ ，可以根据K距离来设定，即寻找突变点。

K距离：给定数据集P={p(i);i=0,1,...n},计算点P(i)到集合D的子集S中所有点之间的距离，距离按照从小到大的顺序排列，d(k)被称为k-距离。

MinPts:k-距离中k的值，一般取的小一些，要多次尝试。

优势：

1.不需要指定簇个数

2.可以发现任意形状的簇。

3.擅长找到离群点（解决检测任务）

4.只需设置半径 $\epsilon$ 和MinPts.

缺点：

1.高维数据计算复杂，不过可以做降维去解决。

2.参数难以选择，参数对结果的影响很大。

3.Sklearn中效率很慢，不过可以先做数据处理，如数据消减策略。

聚类算法的比较

https://blog.csdn.net/shuke1991/article/details/52166345

轮廓系数

评估聚类模型的标准。

https://www.jianshu.com/p/b9528df2f57a

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
聚类算法

分类和聚类聚类：把相似的东西分成一组。常用算法K-means算法首先需要制定K值，即簇的个数，也即分成的堆数。质心，也即数据的均值，指向量各维求平均即可。距离的度量，常用欧几里得距离和余弦相似度计算。优化目标：优点简单、快速、适合常规数据缺点K值比较难指定，复杂度和样本呈线性关系，样本越多，计算时约复杂；很难发现任意形状的簇。 DBSCAN算...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。