数据挖掘笔记（六）

最新推荐文章于 2024-06-21 17:30:00 发布

晴崽噼里啪啦

最新推荐文章于 2024-06-21 17:30:00 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘笔记文章标签：数据挖掘聚类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42730271/article/details/121263178

版权

数据挖掘笔记专栏收录该内容

9 篇文章 1 订阅

订阅专栏

以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘：理论与算法》，本笔记仅用于个人学习。如有错误，感谢指正。

一、聚类简介

对数据集划分的簇应满足：簇内距离尽量小，簇间距离尽量大。
聚类属于无监督学习：无标签，且聚类结果没有对错之分。
应用：市场营销对客户划分、地震对区域划分、社区发现、色块聚类做图像分割等
要求：需要处理任意形状的数据、能处理噪点和离群点等
坐标变换的选取、标准化的与否等预处理都可能会造成不同的结果！

二、K-Means算法

太常用了，不细写过程了。
时间复杂度：O(tkn)，t为迭代次数，k为中心点数（通常不会很大），n为数据点个数。
反映了最大期望的优化思想。
优点： 对球形、高斯数据的分簇效果好；收敛非常快；简单。
缺点： k值不能预先判断；可能会形成局部最优点（迭代的算法都会遇到该问题，可以通过重新初始化随机点来避免该问题）；噪点等异常点造成的影响大；球形以外的簇形效果不好。

三、Sequential Leader聚类

原理类似K-Means。
时间复杂度：O(kn)
对计算过程的理解：每个新来的点和原来类别的距离若低于阈值，则纳入原来的类别，否则认为为新类别。
优点：不需要迭代，非常简单；可以处理流数据，因为它是一个一个计算的；不需要K值。
缺点：流入数据的顺序对结果有影响；局部最优。

四、基于模型的聚类：高斯混合模型

基于数学模型的算法结果更准确，计算将得到属于簇类的概率是多少，数据将属于概率最高的簇。
决定高斯函数的两个参数：μ、σ²
期望最大（EM）：模型参数与隐含参数反复迭代得到结果（K-Means也用到了这种思路）。
优点：更精确，还可以将模型拿来生成数据（这才是真正掌握数据的特征）。
缺点：只适用于基本符合高斯分布的数据；局部最优。

五、基于密度的聚类：DBSCAN

利用连通性/可达性：簇内能有一条路径到达。
理解：直接密度可达则将被纳为一个簇。
涉及的参数：Epsilon（在半径内的点将直接密度可达；该值越大，决定最终簇数可能越少）、Minpoint（每个簇内的最少点，簇内的点数若少于该值，认为无法形成簇，该簇的点被视为噪声点）。
优点：可处理非规则图形（！！！），能够实现降噪处理。
缺点：难以确定上述的两个参数的值。

六、层次聚类

基于最小/最大距离
优点：任意多簇。
缺点：距离计算方法不同，聚类的结果也将不同。

七、聚类算法结果的评价

无监督学习无法说明聚类结果的对错，只能对结果的**内聚性（簇内）和耦合性（簇间）**进行评价！
评价指标1——Je，计算公式如下：
其中，mi：

je越小，说明越紧密，该指标反映了内聚性，但没有考虑耦合性（簇间）。
轮廓系数：

该参数同时考虑了内聚性和耦合性！

晴崽噼里啪啦

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘笔记（六）

以下笔记来自于学堂在线上清华大学的视频网课《80240372X 数据挖掘：理论与算法》，本笔记仅用于个人学习。如有错误，感谢指正。一、聚类简介对数据集划分的簇应满足：簇内距离尽量小，簇间距离尽量大。聚类属于无监督学习：无标签，且聚类结果没有对错之分。应用：市场营销对客户划分、地震对区域划分、社区发现、色块聚类做图像分割等要求：需要处理任意形状的数据、能处理噪点和离群点等坐标变换的选取、标准化的与否等预处理都可能会造成不同的结果！二、K-Means算法太常用了，不细写过程了。优点：对球
复制链接

扫一扫

专栏目录

晴崽噼里啪啦

博客等级

码龄6年

31
原创

133
点赞

165
收藏

121
粉丝

关注

私信

热门文章

分类专栏

最新评论

水排序游戏的笨蛋解法【C++】
IceKnight: 就是上面三层都倒走了，下面的颜色才显示出来。我在玩的某个网游的周期奖励活动里就有这倒水游戏，我也自己编程去解，就野蛮深度搜索也能搜出来。但是后面关卡有这种隐藏下层的，只显示第一层颜色的，就没办法解，只能前面先自己尝试倒把下几层颜色都搞清楚，最后再用程序解。想让程序在没搞清楚全部下层颜色时，就去判断最优最有可能解决的，那可能要借助类似神经网络算法咯，哈哈哈，那就复杂了
水排序游戏的笨蛋解法【C++】
晴崽噼里啪啦: 抱意思，太久了，我已经不知道我写了个什么东西了
水排序游戏的笨蛋解法【C++】
2401_83654679: 同问，不知道的瓶子是指除了第一层知道颜色，下边的全不知道颜色
【非常小白的后端学习笔记三】mysql数据库的相关知识点汇总
晴崽噼里啪啦: 触发器、存储引擎、函数、视图暂时先不整理了
水排序游戏的笨蛋解法【C++】
晴崽噼里啪啦: 不知道的瓶子是什么意思

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。