DPCA 密度峰值聚类记录

Mark_Aussie

已于 2022-09-08 13:55:25 修改

阅读量510

点赞数

分类专栏：机器学习文章标签：机器学习

于 2022-05-18 14:05:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MarkAustralia/article/details/124840821

版权

机器学习专栏收录该内容

47 篇文章

订阅专栏

密度峰值算法（Clustering by fast search and find of density peaks），一种基于密度的聚类方法，主要思想是寻找被低密度区域分离的高密度区域。密度峰值算法(DPCA)的假设：

（1）类簇中心点的密度大于周围邻居点的密度；

（2）类簇中心点与更高密度点之间的距离相对较大。

DPCA 有两个需要计算的量：局部密度；与高密度点之间的距离。

dist(cutoff) 是阶段距离，

代表找到与第 $i$ 个数据点之间的距离小于截断距离 $d_c$ 的数据个数，

将其作为第 i 个数据点的密度。

密度峰聚类算法的重点在于聚类中心距离 δi的选定。根据局部密度的定义，计算出上图中每个点的密度，依照密度确定聚类中心距离 δi。

1. 将每个点的密度从大到小排列： ρi > ρj > ρk > ….；密度最大的点的聚类中心距离与其他点的聚类中心距离的确定方法是不一样的;
2.先确定密度最大的点的聚类中心距离–i点是密度最大的点，聚类中心距离 δi 等于与 i 点最远点 n到 i 的直线距离 d(i,n)；
3. 再确定其他点的聚类中心距离——其他点的聚类中心距离是等于在密度大于该点的集合中，与该点距离最小的的那个距离。如i、j、k的密度都比n点的密度大，且j点离n点最近，则n点的聚类中心距离等于d(j,n)。

4. 依次确定所有的聚类中心距离δ

将所有点的聚类中心密度都统计出来后，按 δi 和 pi 作为坐标轴作图可以得到的结果，图中1,10两个聚类中心同时远离坐标轴。普通点则是靠近p轴，异常点靠近 δ轴。

参考：

基于密度峰值的聚类(DPCA)_张博208的博客-CSDN博客_密度峰值

博客等级

码龄9年

247
原创

648
点赞

1818
收藏

346
粉丝

关注

私信

热门文章

分类专栏

nlp 61篇
排序算法 9篇
大模型 4篇
Python 60篇
AIOps 32篇
机器学习 47篇
C语言
JDK翻译 5篇
数据库 4篇

展开全部收起

最新评论

几种排序算法总结（六）--快速排序
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)起一个更符合文章内容的标题；(3)增加条理清晰的目录。
whisper 语音识别的安装与使用
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619664161。
Celery使用小结
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
Python Logging 的使用
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
python 常用方法记录
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。