聚类（Clustering）理论简介

最新推荐文章于 2024-07-25 12:14:33 发布

Hisun_Gwen

最新推荐文章于 2024-07-25 12:14:33 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：聚类理论机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hisun_Gwen/article/details/72885090

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

现实中，人们获得的数据大部分都是未标记(unlabeled data)，分类和回归算法不能够处理这些数据，而人工进行标记耗时耗力，也是不可行的。因此，人们处理这些数据的大致步骤是：先采用聚类，将数据划分成若干个簇，再将每个簇(cluster)根据数据的含义定义为一个特定的类，这样相当于给数据进行非人工标记，获得了带标记的数据，这样一来，就可以使用分类和回归算法来训练模型，用于判别新数据（raw data）的类型了。

聚类(clustering)是将数据集D划分成若干互不相交的子集，即’簇’（cluster）.通常这个数据集是由无标记（也可以是少部分存在标记）的样本数据构成。它的核心思想是“物以类聚”。怎么“聚”？就是寻找一种合适的距离度量，在结合性能度量来评价，找到更好的且符合要求的聚类结果。
对”簇”的描述中会涉及到一个单词centroid,翻译过来叫做“质心”。每个簇通过其质心（也就是簇中所用点的中心）来描述。离质心越近的数据点，其被分到该簇的可信度越高。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
聚类（Clustering）理论简介

聚类(clustering)是将数据集D划分成若干互不相交的子集，即’簇’（cluster）.通常这个数据集是由无标记（也可以是少部分存在标记）的样本数据构成。它的核心思想是“物以类聚”。现实中，人们获得的数据大部分都是未标记，分类和回归算法不能够处理这些数据，而人工进行标记耗时耗力，也是不可行的。因此，人们处理这些数据的大致步骤是：先采用聚类，将数据划分成若干个簇，再将每个簇根据数据的含义定义
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。