聚类系列(一)——什么是聚类？

Daisy_JuJuJu

已于 2023-12-02 20:05:38 修改

阅读量753

点赞数 1

分类专栏：聚类文章标签：聚类数据挖掘机器学习

于 2023-11-21 21:15:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Daisy_jf/article/details/134206449

版权

聚类专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目前在做聚类方面的科研工作, 看了很多相关的论文, 也做了一些工作, 于是想出个聚类系列记录一下, 主要包括聚类的概念和相关定义、现有常用聚类算法、聚类相似性度量指标、聚类评价指标、聚类的应用场景以及共享一些聚类的开源代码

下面正式进入该系列的第一个部分，什么是聚类？

文章目录

前言
什么是聚类
- 示例问题1：
- 示例问题2:
聚类的研究内容和问题

前言

目前, 机器学习/深度学习研究的热火朝天，归根到底可以将其分为两大类: 有监督学习和无监督学习(当然也有半监督学习，弱监督学习等等)。

有监督学习和无监督学习的区别就是是否样本可以去训练和学习。当有足够的训练样本，有大量强大模型可以用于服务于不同的任务，比如用于手写数字识别的CNN及其变体、用于空气质量预测的LSTM及其变体。

但如果没有样本标签呢？对于分类任务来说, 如何对样本进行分类？如何将样本划分为不同相似的子集？这就是聚类问题！

什么是聚类

聚类就是研究如何根据样本相似性和优化准则，将样本划分为不同的子集/类/簇等，使得簇内的样本的相似性最大，簇间的样本相似性最小。

这里的样本可以是不同领域的不同类型的数据，可以是真实物理世界中的点、线、面数据，也可以是进行抽象、虚拟的点、线面数据。举例来说：包含经纬度的PM2.5站点，居民移动的轨迹点，车辆轨迹线数据，建筑物面数据，以及用户、西瓜等抽象点数据。

聚类在多个领域都有着广泛应用，比如数据挖掘（聚类是数据挖掘的经典研究之一）、人类行为模式探测、图像处理与分析、生物科学等。

同样以经典数据集为例：鸢尾花(iris)分类问题

示例问题1：

iris数据集包含了不同类型的花的样本数据，但是不知道具体每个样本花所属的类型，每个样本数据有花萼长度、花萼宽度、花瓣长度和花瓣宽度等四个特征。现在需要根据样本特征将iris数据划分为不同的相似样本簇。

思路: 在利用聚类问题解决此问题的方法为: 根据花的特征计算不同花之间的相似性，然后利用聚类算法根据相似性计算结果将不同的样本点划分为不同的组(亦可成为簇, 子集等), 位于相同簇内的样本即被认为是具有相似属性的花。

示例问题2:

空间上存在不同的空间点数据, 如图1所示, 在位置点数据其他属性, 只知道其空间坐标的前提夏, 如果将图上的点划分为不同的组?

思路: 该问题是典型的空间聚类问题, 根据点数据的空间坐标计算不同点之间的距离作为度量点数据之间相似性的标准,然后根据相似性度量结果对不同的空间点数据划分为不同的簇, 其中簇内的样本点之间的距离最小(相似性最小), 簇间的样本距离最大(相似性最大)
在这里插入图片描述

聚类的研究内容和问题

通过上述介绍可知, 在聚类研究中, 不管研究的样本数据的类型是空间数据还是非空间(属性)数据, 聚类的核心内容是相同的, 包括两个部分:

度量样本数据之间的相似性(距离)。
基于相似性度量结果, 采用某种准则将样本划分为不同的簇。

而根据聚类的核心研究内容, 又具体需要研究以下内容:

如何度量样本之间的相似性? 如何度量不同类型的样本之间的相似性?
如何确定样本簇的个数?
如何区别簇内数据和噪声数据?
如何识别不同密度的簇?
如何识别不同任意形状的簇?
如何确定识别的簇结果的质量? 即如何度量聚类结果的有效性?
如何识别具有弱连接的簇(颈问题和链问题)?
如何减少参数设置对聚类结果的影响?
如何减少人为的干预？
…

后续会针对上述问题, 以及目前典型的聚类算法进行详细介绍, 并给出部分实现代码

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
聚类系列(一)——什么是聚类？

目前, 机器学习/深度学习研究的热火朝天，归根到底可以将其分为两大类: 有监督学习和无监督学习(当然也有半监督学习，弱监督学习等等)。有监督学习和无监督学习的区别就是是否样本可以去训练和学习。当有足够的训练样本，有大量强大模型可以用于服务于不同的任务，比如用于手写数字识别的CNN及其变体、用于空气质量预测的LSTM及其变体。但如果没有样本标签呢？对于分类任务来说, 如何对样本进行分类？如何将样本划分为不同相似的子集？这就是聚类问题！
复制链接

扫一扫

专栏目录

Daisy_JuJuJu CSDN认证博客专家 CSDN认证企业博客

码龄6年

48: 原创

4万+: 周排名

5万+: 总排名

35万+: 访问

: 等级

2335: 积分

148: 粉丝

247: 获赞

70: 评论

1345: 收藏

私信

关注

热门文章

分类专栏

空间统计 1篇
聚类 2篇
遥感图像处理 5篇
Jupyter 2篇
机器学习 1篇
空间分析 1篇
Sql Server 1篇
git 2篇
HTML和CSS 3篇
JavaWeb 2篇
mysql 3篇
JavaScript 15篇
Qt 3篇
PostgreSQL 3篇
OpenCV 1篇
人脸识别 2篇
ArcGIS 6篇

最新评论

ArcGIS栅格数据浮点类型像素转为整型
qq_41571487: -0.5~0.8的数据*100之后变成-99~99了
空间扫描统计详解——从空间扫描统计到时空扫描统计
Daisy_JuJuJu: 您好。 1. mu在这里确实是指的期望值。我文章中说的其实是用窗口内的事件密度*面积。整个得到的就是窗口内可能的事件发生数。在kulldorff97年的文章中提到的poisson 模型中的参数mu仍然指的是期望，p其实就是泊松函数中的k。在伯努利分布中，其实就是事件发生的概率。只不过在泊松分布中表示的是事件的可能发生数量。 2. 在使用蒙特卡洛模拟时候，我狗狗是那里可能有点笔误，是应该用事件密度乘以窗口面积。但其实事件概率往往是不知道的，所以一般也就是用事件*窗口面积然后再除以研究区域的面积。我已经对博客内容进行修改啦，也谢谢您的指正。
空间扫描统计详解——从空间扫描统计到时空扫描统计
sxxxxxxyyyyyy: 最近在着这个，有些疑问一直没弄清，能得到回答的话非常感恩~ 1.mu(Z_i)=lambda_i * A_i，其中lambda的单位是事件数，A的单位是面积，但mu得含义是窗口内随机变量的期望值，这个期望值不应该也是事件数吗？我一直没弄懂这个mu的含义，kulldorff97年的那篇论文中用的符号是possion(p*mu)，p和mu的含义有点迷糊了 2.使用蒙特卡洛模拟的时候，原假设下的分布的参数是不是按照博主使用样本数和面积的放来来计算lambda呀？
ArcGIS按字段分割图层为多个图层
Muuyyyya: 请问您解决了吗？我也遇到了同样的问题，想请教
解决Qt数据库驱动未加载的问题(QSqlDatabase:QPSQL driver not loaded QSqlDatabase）
Daisy_JuJuJu: dll的文件中的几个要去下载对应数据库的驱动文件（qt没有对每种数据库进行预安装）。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Daisy_JuJuJu 你们的鼓励将是我最大的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。