降维与分类是多元统计分析的两个主题
,在这里,我浅谈一下的聚类分析和判别分析主要用于
分类。
聚类分析
按分析对象可分为两种:
Q
型聚类(对样本的聚类),
R
型聚类(对变量的聚类)
按具体方法可分为两种:一般小样本数据可以用谱系聚类法,大样本数据一般用快速聚类法(
K
均值聚类法)。
用谱系聚类法聚类时,
聚多少类合适需要根据统计量判断,
一般用
R²
统计量、
半偏相关统计量、
伪
t²
统计量以及伪
F
统计量。
这里给出谱系聚类法算法:
1
)
n
个样品开始时作为
n
个类,计算两两之间的距离,构成一个对称距离矩阵
2
)
选择
D(0)
中的非对角线上的最小元素,
设这个最小元素是
D(pq)
。
这时
G(p)={x(p)},G(q)={x(q)}
。
将
G(p),G(q)
合并成一个新类
G(r)={G(p),G(q)}
。
在
D(0)
中消去
G(p),G(q)
所对应的行与列,
并加
入由新类
G(r)
与剩下的其他未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵
D(1)
,它是
n-1
阶方阵。
3
)从
D(1)
出发重复步骤
2
的作法得
D(2)
。再由
D(2)
出发重复上述步骤,直到
n
个样品聚为
1
个大类为止。
4
)在合并过程中要记下合并样品的编号及两类合并时的水平(即距离)并绘制聚类谱系图。
判别分析
首先这里马氏距离的概念很重要,如下图。
Σ
是总体
G
的协方差矩阵,
μ
是总体
G
的均值向量
这构成了距离判别的核心。
其他主要几种判别法是
Fisher
判别,
Bayes
判别和逐步判别。一般用
Fisher
判别即可,要考虑
概率及误判损失最小的用
Bayes
判别,但变量较多时,一般先进行逐步判别筛选出有统计意义
的变量,再结合实际情况选择用哪种判别方法。
聚类分析与判别分析的区别与联系
都是研究分类的,
在进行聚类分析前,
对总体到底有几种类型不知道