[机器学习] 聚类的基本概念

基于《数据挖掘导论》这本书,总结一下聚类的基本概念和知识点
聚类
一、 实用的聚类

  1. 汇总
    依赖分析类型、原型个数和原型代表数据的精度,汇总结果可以与使用所有数据得到的结果相媲美
  2. 压缩
    每个对象用与它所在的簇相关联的索引表示,这类压缩称作向量量化,常用于图像、声音和视频数据,此类数据特点:
    (1) 许多数据对象之间高度相似,
    (2) 某些信息丢失是可以接受的
    (3) 希望大幅度压缩数据量
  3. 有效的发现最近邻
    找最近的邻点,计算近邻簇中对象的距离,其中两个簇的领近性用其原型之间的距离来测量

二、 聚类的主要问题
1. 将数据对象划分为簇集合的不同方法
2. 簇的类型

三、 聚类分析

  1. 在数据中发现描述对象及其关系的信息,将数据对象分组。
  2. 目标:组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。 组内的相似性(同质性)越大(内聚度, Cohesion),组间的差别越大(内聚度, Coupling),聚类就越好。
  3. 聚类分析分为监督分类(supervised classification),非监督分类(unsupervised classification)。通常如无特殊提示,则默认为监督分类。
  4. 术语:分割(segmentation), 划分(partiti
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值