机器学习聚类分析能做什么

聚类是一种非监督学习方法,用于将数据集分割成不同的簇,使同一簇内的数据相似度高,不同簇间差异大。聚类包括数据预处理、定义距离函数、分组和结果评估。与分类不同,聚类不需要预先知道类别信息。聚类广泛应用于客户细分、社会网络分析、生物分类等领域,有助于揭示数据内在结构和模式。
摘要由CSDN通过智能技术生成
  • 什么是聚类

聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。

聚类

  • 聚类分析主要步骤
  1. 数据预处理:选择数量、类型和特征的标度,将孤立点移出数据。
  2. 为衡量数据点间的相似度定义一个距离函数
  3. 聚类或分组:将数据对象分到不同的类中
  4. 评估输出:评估聚类结果的质量

  • 聚类和分类的区别

聚类解决的是事物分组的问题,是非监督学习,那些表示数据类别的分类或者分组信息是没有的,简单地说,聚类就是把相似的东西分到一组,聚类时并不关心某一类是什么,需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,并不需要使用训练数据进行学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值