R语言学习笔记（八）判别分析

原创已于 2022-11-27 19:56:49 修改 · 2.1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#r语言 #学习 #开发语言

于 2020-07-24 15:19:37 首次发布

R Language 专栏收录该内容

17 篇文章

订阅专栏

本文深入探讨了判别分析的基本概念，介绍了线性判别分析、距离判别和Bayes判别法，详细讲解了每种方法的计算步骤和R语言实现，为读者提供了丰富的实例和理论知识。

文章目录

判别分析
- 基本介绍
- 主要分类
线性判别分析
- 步骤
- R语言实现
距离判别法
Bayes判别法
- 正态总体的Bayes判别
主要参考

判别分析

基本介绍

判别分析是多变量统计分析中用于判别样品所属类型的一种统计分析方法，用于研究在一些已知研究对象已经用某种方法分成若干类的情况下，确定新的样品属于已知类别中的哪一类的问题。

其基本思想是：按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标，从而确定某一样本属于何类。

主要分类

$\text{判别分析方法} \begin{cases} \left. \begin{aligned} &\text{距离判别}\\ &\text{线性判别}\\ &\text{非线性判别} \end{aligned} \right\}(属于确定性判别) \\ \text{Bayes判别(属于概率性判别)} \end{cases}$

线性判别分析

设欲建立的线性判别函数为： $Y=a_1X_1+a_2X_2+\cdots+a_pX_p=a'X$ .

步骤

求Fisher线性判别函数

分离度 $\lambda$ 要求:

$\lambda=\frac{(\overline{Y_1}-\overline{Y_2})^2}{S_p^2}$
其中 $S_p^2$ 为合并协方差矩阵，且

$S_p^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$

$S_1^2$ 和 $S_2^2$ 为各组的协方差矩阵。

Fisher判别目的是选择合适的 $x$ 的线性组合，使得均值 $\overline{Y_1}$ 和 $\overline{Y_2}$ 之间的分离度达到最大。

计算判别界值 $Y_0$

$Y_0=\frac{a'(\overline{X_1}+\overline{X_2})}2$

建立判别标准

$\begin{cases} \text{当}\overline{Y_1}<\overline{Y_2}\text{时},\,\text{若}Y<Y_0,\,\text{则}X\in G_1,\,\text{否则}X\in G_2;\\ \text{当}\overline{Y_1}>\overline{Y_2}\text{时},\,\text{若}Y<Y_0,\,\text{则}X\in G_2,\,\text{否则}X\in G_1;\\ \text{当}\,Y=Y_0\,\text{时},\,\text{待判}.\\ \end{cases}$

R语言实现

使用R语言进行线性判别的函数lda()

lda(formula, data, ...)

# 导入数据
d6.1 <- read.csv("d6.1.csv"); 
attach(d6.1)
plot(x1, x2)
text(x1, x2, G, adj=-.5)

library(MASS)
# 线性判别模型
lda.sol <- lda(G~x1+x2)
lda.sol

Z <- predict(lda.sol)
newG<- Z$class # 得到预测的所属类别结果
cbind(G, Z$x, newG) # 按列组合并显示对应的预测结果

sum(diag(prop.table(tab))) # 计算符合率

距离判别法

其思想是：根据已知分类的数据，分别计算各类的重心，即各组的均值。

其准则是：对任给的一次观测，若它与第 $i$ 类的重心距离最近，就认为它来自第 $i$ 类。

两总体距离判别

按距离最近准则判别归类，即：

$\begin{cases} \text{当}D(X,\,G_1)<D(X,\,G_2),\,\text{则}X\in G_1;\\ \text{当}D(X,\,G_1)>D(X,\,G_2),\,\text{则}X\in G_2;\\ \text{当}D(X,\,G_1)=D(X,\,G_2),\,\text{待判}.\\ \end{cases}$