学习笔记,仅供参考,有错必纠
博客阅读索引:博客阅读及知识获取指南
上一节:回归
文章目录
聚类
什么是聚类
聚类是无监督学习的主要任务
聚类一直是机器学习、数据挖掘、模式识别等领域的重要组成内容。2015年,中国人工智能学会理书长李德毅院士指出:人类的认知科学要想有所突破,首先就要在人数据聚类上取得突破,聚类是挖掘大数据资产价值的第一步。
和分类(监督学习的主要任务)不同,聚类是在无标记样本的条件下将数据分组,从而发现数据的天然结构,聚类在数据分析中扮演重要角色,它通常被用于以下三个方面:
- 发现数据的潜在结构
- 对数据进行自然分组
- 对数据进行压缩
这几个方面的功能使聚类既可以作为预处理程序,又可以作为独立的数据分析工具。
聚类描述
数据聚类(或聚类分组)的目标是在一个对象(模式、数据点)的集合中发现其自然的分组。关于聚类目前尚无统一的定义,比较常用的定义如下:聚类是把一个数据对象的集合划分成簇(子集),使簇内对象彼此相似,簇间对象不相似的过程。
-
回答什么是簇这个根本性问方面,人们已经做了大量努力。给定一个数据集

本文深入探讨了聚类在机器学习中的重要性,详细介绍了聚类的基本概念、分类和典型算法如k-means,强调了高维数据的维度灾难问题。此外,还探讨了深度学习在聚类中的应用,包括自动编码器,并分析了深度聚类的相关论文。
订阅专栏 解锁全文
1183

被折叠的 条评论
为什么被折叠?



