数据聚类算法 --《大数据时代的算法》学习笔记

最新推荐文章于 2024-03-20 10:05:03 发布

lorna_2011

最新推荐文章于 2024-03-20 10:05:03 发布

阅读量423

点赞数

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lorna_2011/article/details/91976651

版权

本文介绍了数据聚类分析的重要性及其无监督学习特性，详细讲解了自上而下和自下而上的聚类方法。重点讨论了系统聚类法，包括最短距离法、最长距离法、中间距离法、重心法、类平均距离法和离差平方和法，并解释了各种方法在处理不同类型数据时的特点和适用场景。

摘要由CSDN通过智能技术生成

聚类分析

聚类分析是机器学习算法中同数据分类算法同样重要的算法，数据聚类分析是一种无监督的学习方法。聚类和分类不同的是，它不需要通过语料库训练，更不需要早期的人工标注类型，具备较高的灵活性和极高的自动化处理能力。
数据聚类算法可以划分为结构性或者分散性两种算法类型，是算法实现的不同方式；从计算方式而言，可拆分为自上而下和自下而上两种计算方式

自上而下的分析方法：首先把所有样本视为一个聚类，然后不断地从这个大的聚类中分离初更多小聚类，直到不能再继续分离为止。
自下而上的分析方法：将局部样本自成一聚类，然后通过不断地两两之间合并，最终形成几个大的聚类。

基于系统聚类法

系统聚类（systematic cluster method）又称作层次聚类，系统聚类的方法是通过计算将聚类较近的样本聚成一类，距离较远的样本后聚成一类，通过不断计算样本之间距离，最终每个样本都能找到合适的聚簇。
按聚类的过程分析，可以将聚类划分为系统聚类、逐步聚类法、有序样品聚类法、模糊聚类法以及分隔聚类法等。

系统聚类法：主要用于对小数据量的样本间聚类及对指标聚类
逐步聚类法：也称快速聚类法，主要用于对大数据样本之间的聚类。它首先定义样本聚簇的中心点，这些初始中心点可以随机产生也可以通过一定规则产生。把其他样本数据与初始化的中心点进行距离计算，离样本数据越近的中心点，则该样本数据属于该中心点所在的聚簇，然后通过聚簇内的距离计算更新当前聚簇的中心点，不断迭代上述过程直到聚簇中心不再改变。
有序样品聚簇法：用于对有序的数据样本进行聚类，

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。