ML(13)-聚类

小陈同学-陈百万

已于 2023-10-25 21:43:56 修改

阅读量1.2k

点赞数

分类专栏： MachineLearning 文章标签：深度学习机器学习

于 2021-04-22 00:10:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_40624829/article/details/115975569

版权

MachineLearning 专栏收录该内容

16 篇文章 4 订阅

订阅专栏

聚类

1.K-mean
2.系统聚类
3.DBSCAN聚类算法

聚类：无监督学习，将相似的样本聚为一类。核心如何定义相似。
分类：有监督学习，依据分类准则，将样本划分为不同的类。核心分类器的设计（KNN）

聚类：根据彼此不同的属性进行辨认，将具有相似属性的事物聚为一类，使得同一类的事物具有高度的相似性。

1.K-mean

随机选取k个类别中心
计算每个样本点到每个中心的距离，将样本归类到距离最近的类中。
依据每个类的样本更新类中心
重复2，3直至类中心变化小于某个阈值。

K-meas 算法的优点：简介快速，时间复杂度O(nkt)
K-meas 算法的缺点：需要预先知道/设定聚类数量k

2.系统聚类

自底向上的一种方法：初始时，各个样本自成一类，依据定义的相似度，每次合并一个类，不断向上合并直至到达设定了类别数

定义样本间距离和类间距离的计算方法，每个样本自成一类
计算任意两个类间距离，将距离最短的两个类合并
重复步骤2直至聚为k类

样本间距离：欧几里得距离、均方距离、曼哈顿距离（1范数）、余弦距离、最大距离（无穷范数）
类间距离：最大距离、最小距离、平均距离、离差平方和距离

系统聚类的优点：灵活定义的距离对昂使得他有广泛的适用性
系统聚类的缺点：时间复杂度高，一般为 $o(n^3)$ 。

3.DBSCAN聚类算法

DBSCAN：density-based spatial clustering of applications with noise
将类定义为：密度相连的点的最大集合，通过在样本空间中不断寻找最大集合从而完成聚类
有几个基本定义： $\epsilon$ 领域，核心对象，直接密度可达，密度可达，密度相连

密度可达是直接密度可达的传递闭包

定义半径 $\epsilon$ 和MinPts
抽取未被访问的样本点q
检验是否为核心对象，是-进入步骤4，否-返回步骤2
找出该样本点所有密度可达的对象，构成聚类 $C_q$ .
重复步骤2，直至所有样本点都被访问过一遍

能在带噪声的样本空间中发现任意形状的聚类并排除噪声

DBSCAN聚类的优点：能够过滤低密度区域，发现稠密样本点。不需要制定聚类数，可以过滤噪声，时间复杂度 $o(n\log n)$

(概念稍微复杂点的一个聚类算法)

小陈同学-陈百万

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ML(13)-聚类

聚类1.K-mean2.系统聚类3.DBSCAN聚类算法聚类：无监督学习，将相似的样本聚为一类。核心如何定义相似。分类：有监督学习，依据分类准则，将样本划分为不同的类。核心分类器的设计（KNN）聚类：根据彼此不同的属性进行辨认，将具有相似属性的事物聚为一类，使得同一类的事物具有高度的相似性。1.K-mean随机选取k个类别中心计算每个样本点到每个中心的距离，将样本归类到距离最近的类中。依据每个类的样本更新类中心重复2，3直至类中心变化小于某个阈值。K-meas 算法的优点：简介快速，
复制链接

扫一扫

专栏目录

小陈同学-陈百万 CSDN认证博客专家 CSDN认证企业博客

码龄7年

196: 原创

23万+: 周排名

102万+: 总排名

36万+: 访问

: 等级

4079: 积分

90: 粉丝

147: 获赞

83: 评论

842: 收藏

私信

关注

热门文章

分类专栏

MachineLearning 16篇
PaperNotes 22篇
MLTools 13篇
C++ 23篇
Python 26篇
PythonLibs 16篇
LinuxCommand 12篇
Git Tips 12篇
推荐系统 6篇
自然语言处理 10篇
PRML 4篇
学点数学 11篇
算法题 18篇
无数踩坑系列 7篇
JOTTING

最新评论

Linux(8)-Vim编辑器的使用
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
Linux(4)-资源-du,top,free,shutdown,gnome
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
Pytorch(1)-Tensor构建与统计分析
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
PythonLibs(10) - open (cvs, .json, .mat)
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
PythonLibs(9) - Logging
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。