聚类分析学习01
目录
聚类分析定义
聚类分析特点
聚类分析操作
例题
01 定义
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
聚类分析的基本思想: 对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。
(1)根据一批样品的多个指标, 具体找出一些能够度量样品或指标之间的相似程度的统计量。
(2)以这些统计量为分类的依据, 把一些相似程度较大的样品(或指标)聚合为一类。
把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。
02 聚类分析特点
也就是说,聚类分析最终是根据相似程度的大小,得到一个表示亲疏关系的分类系统。
03 操作过程
04 例题
、分析:
在聚类分析中通常要结合实际问题来选择适用的距离, 有时应根据实际问题定义新的距离,
显然,本例无法直接用上述公式来计算距离。但可以发现前三种文字(英、挪、丹)很相似,
特别是每个单词的第一个字母。可以用10个数词中第一个字母不同的个数来定义两种语言之间的距离。
例如:英语和挪威语中只有1和8的第一个字母不同, 则它们之间的距离为2。