1:聚类概念
聚类是一个把数据对象划分为多个簇或者多个组的过程,使得一个簇内的对象具有很高的相似性,但与其他簇内的对象不相似。聚类算法属于无监督学习
2:聚类分析概念
聚类分析是一个把数据对象划分为子集的过程,每个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似,由聚类分析产生簇的集合叫做聚类。至关重要的区别是,聚类可以自动地发现这些分组是聚类分析的突出优点。
3:应用场景
1:客户分类
2:文本分类
3:基因识别
4:空间数据处理
5:卫星图片识别
6:数据分析,统计学,机器学习,空间数据库技术,生物学和市场学
4:聚类的依据--距离
聚类分析是研究对样本或变量的聚类,在进行聚类的时候,方法很多,而这些方法的选择往往与变量的类型是有关的,由于数据的来源以及测量方法的不同,变量大致可以分为两类:
1)定量变量:可就是通常所说的连续变量
2)定性变量:这些量并非真有数量上的变化,而只有性质上的差异,这些变量可以分为有序变量和名义变量
对于连续型变量,有一些典型的距离定义:
绝对值距离 | 绝对值距离是在一维空间下进行的距离计算 |
欧式距离 | 欧式距离是在二维空间下进行的距离计算 |
闵可夫斯基距离 | 闵可夫斯基距离是在n维空间下进行的距离计算 |
切比雪夫距离 | 是闵可夫斯基距离在n取无穷大时的距离 |
Lance距离 | 减弱极端值的影响力 |
公式自己百度吧...
5:基本聚类方法概述
聚类方法主要划分为:划分聚类,层次聚类,基于密度聚类,基于网格聚类,基于概率模型聚类
方法 | 一般特点 |
划分方法 | 1:发现球形互斥的簇 2:基于距离 3:可以用均值或中心点等代表簇中心 4:对中小规模数据集有效 |
层次方法 | 1:聚类是一个层次分解(即多层) 2:不能纠正错误的合并或分析 3:可以集成其他技术,如微聚类或考虑对象"连接" |