机器学习中两种常见的数据分析技术：聚类（Clustering）和分类（Classification）区别

北京橙溪 www.enwing.com

于 2024-09-28 13:14:01 发布

阅读量165

点赞数 4

文章标签：机器学习数据分析聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hellochenlian/article/details/142614578

版权

聚类（Clustering）和分类（Classification）是机器学习中两种常见的数据分析技术，它们在目标和方法上有所不同。

聚类（Clustering）

定义：聚类是无监督学习的一种方法，旨在将数据集中的样本根据相似性分组，使得同一组（簇）内的样本相似度较高，而不同组之间的样本相似度较低。
目的：发现数据内在的结构，将数据点分组成自然的集群，无需事先给出标签。
常见算法：
- K-Means：基于距离的聚类，将数据点划分为K个簇。
- 层次聚类（Hierarchical Clustering）：通过构建一个聚类树来逐步合并或分割簇。
- DBSCAN：基于密度的聚类，可以识别出任意形状的簇，并能处理噪声数据。
- 高斯混合模型（Gaussian Mixture Models, GMM）：使用概率模型来发现数据中的簇。
应用场景：市场细分、社交网络分析、图像分割、基因表达分析等。

分类（Classification）

定义：分类是有监督学习的一种方法，目的是通过分析训练数据集（带有标签的数据）来预测新样本的标签。
目的：根据已知的信息对新的数据点进行分类，即确定它们属于哪个预定义的类别。
常见算法：
- 决策树（Decision Trees）：通过一系列规则来决定每个数据点的类别。
- 支持向量机（Support Vector Machines, SVM）：找到最优的决策边界来最大化不同类别之间的边界。
- 随机森林（Random Forests）：集成多个决策树来进行分类。
- 神经网络（Neural Networks）：通过学习输入数据到输出标签之间的映射关系来进行分类。
应用场景：垃圾邮件检测、疾病诊断、图像识别、信用评分等。

区别

标签：聚类不需要标签，而分类需要训练数据带有标签。
目标：聚类是为了发现数据中的固有结构，分类是为了预测新数据的标签。
方法：聚类通常使用无监督学习方法，分类使用有监督学习方法。
输出：聚类输出的是数据点所属的簇，分类输出的是数据点的类别标签。

在实际应用中，聚类和分类可以相互补充，例如，在数据探索阶段使用聚类来了解数据结构，然后在后续阶段使用分类来预测新数据的标签。

北京橙溪 www.enwing.com

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

北京橙溪 www.enwing.com CSDN认证博客专家 CSDN认证企业博客

码龄15年

北京橙溪科技有限公司

244: 原创

3万+: 周排名

3619: 总排名

127万+: 访问

: 等级

1万+: 积分

507: 粉丝

582: 获赞

78: 评论

596: 收藏

私信

关注

热门文章

分类专栏

最新评论

neo4j所有处理过程
2301_79594052: 您好，我遇到一个报错neo4j.exceptions.ClientError: There is no procedure with the name `db.index.fulltext.createNodeIndex` registered for this database instance. Please ensure you've spelled the procedure name correctly and that the procedure is properly deployed. 是运行这行代码的时候出现的graph.query("CALL db.index.fulltext.createNodeIndex('movie',['Movie'], ['title'],{ analyzer: 'cjk'})")，您有空回复一下吗
telegram api接口细节介绍
CV大师杨某: 大佬，知道怎么使用TG小程序自己的页头嘛
python logging日志格式化对齐之空格
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
如何在 Ubuntu 20.04 上安装和配置 Neo4j
qq_45952885: echo "deb [signed-by=/usr/share/keyrings/neo4j.gpg] https://debian.neo4j.com stable 4.1" | sudo tee /etc/apt/sources.list.d/neo4j.list
中医大模型“上古神农”
2401_84635589: 我想博主向我推介一本优秀的《中药学》。教材中药学里每味中药的功效都有较多的若干项功效；功效项多了，很难记忆。我渴望能买到这样《中药学》书本：能将每味药的若干功效项用病机或病因（病邪）角度串联起来作关联或关系性解释。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

北京橙溪 www.enwing.com 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。