学习笔记|模式识别|Kmeans聚类以及matlab中kmeans函数的使用

本文介绍了模式识别中的Kmeans聚类方法,详细讲解了聚类的定义、准则,以及Kmeans算法的基本步骤、最佳初始分类K的选取。此外,还探讨了Kmeans的优缺点,并通过MATLAB代码展示了Kmeans函数在数据聚类中的应用。
摘要由CSDN通过智能技术生成

一、聚类介绍

聚类分析是指事先不了解每一个样本的类别或其他的先验知识,而唯一的分类根据是样本的特征,利用某种相似度度量的方法,把特征相同或相似的归为一类,实现聚类划分,聚类是一种无监督分类方法。同一个聚合类中的模式比不同聚合类中的模式更相似,从而对模式间的相互关系做出估计。聚类分析的结果可以被用来对数据提出初始假设,分类新数据,测试数据的同类型及压缩数据。

1、聚类的定义

在模式空间S中,若给定N个样本X1,X2,...,XN,聚类的定义是:按照相互类似的程度找到相应的区域R1,R2,...,RM,对任意Xi(i=1,2,...,N)归入其中一类,而且不会同时属于两类。

2、聚类准则

我们需要一种聚类准则来评判聚类的优劣,以便知道我们的聚类结果是否足够好。聚类的优劣是就某一种评价准则而言,很难有对各种准则都表现优良的聚类方法。

聚类准则的确定基本上有两种方法:

(1)试探法:根据所分类的问题,确定一种准则,并用它来判断样本分类是否合理。例如,以距离函数作为相似性的度量,用不断修改的阈值来探究对此种准则的满足程度,当取得极小值时,就认为得到了最佳划分。基于试探的聚类算法包括最临近规则的试探法、最大最小距离试探法和层次聚类试探法。

(2)规定一种准则函数,其函数值与样本的划分有关,当取得极小值时,就认为得到了最佳划分。

有一种简单而又广泛应用的准则,即误差平方和准则:

设有N个样本,分别属于类,设有Ni个样本的类,其均值为

  • 12
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值