6-线性分类-fisher判别分析

最新推荐文章于 2024-06-04 07:30:00 发布

取个名字真难呐

最新推荐文章于 2024-06-04 07:30:00 发布

阅读量1.1k

点赞数 1

分类专栏： pytorch

本文链接：https://blog.csdn.net/scar2016/article/details/116376836

版权

pytorch 专栏收录该内容

148 篇文章 26 订阅

订阅专栏

文章目录

1.线性判别分析算法简介

1.线性判别分析算法简介

Fisher算法的主要思想是:类内小，类间大。相当于软件工程里面的松耦合，高内聚的思想，现在我们需要将这种思想用数学模型进行转换：同一类别数据集合之间的方差要小，要集中起来，不同类别的数据之间的均值的差值要大，方便区分。它是从数据降维的思想出发，把一组数据降到一条直线上后再进行区分。

1.1数据定义：

$X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P},$
$\begin{pmatrix} y_1^T\\y_2^T\\\vdots\\y_N^T \end{pmatrix}_{N\times1}$
我们定义数据集 $\{(x_i,y_i)\}_{i=1}^{N},其中，x_i \in \mathbb{R}^P,y_i \in\{+1,-1\}$ ，
且我们记：
$y_i=+1为C_1类，X_{C_1}被定义为\{(x_i|y_i=+1)\},|X_{C_1}|=N_1$
$y_i=-1为C_2类，X_{C_2}被定义为\{(x_i|y_i=-1)\},|X_{C_2}|=N_2;N_1+N_2=N$

1.2 Fisher判别分析图像表示：

在这里插入图片描述
说明：如图所示，我们就是要找到一个分类线，使得图上的蓝色点集合和红色点集合在线上的投影方向上能够很好的区分起来，达到类内小，类间大的效果，数据集合投影后我们可以很简单的在 $W X$ 所组成的线上找到一个绿色的阈值(threshhold)点将两个进行区分起来。

1.3两向量投影表示：

在这里插入图片描述
$定义两个向量：\vec{x},\vec{w},它们之间的夹角为θ，由图像可得向量\vec{x}在向量\vec{w}上的投影为：$
$|\vec{x}| \cdot |\vec{w}| \cdot \cos\theta;由于向量的点乘可以表示为$
$\vec{x}\cdot\vec{w}=|\vec{x}| \cdot |\vec{w}| \cdot \cos\theta;且矩阵表达中\vec{x}\cdot\vec{w}=w^Tx;然后我们先假设|\vec{w}|=1;那么L=|\vec{x}|\cdot\cos\theta;所以向量\vec{x}在向量\vec{w}上的投影可表示如下：$
$L=\bigtriangledown=w^Tx；且||w||=1$

1.4 Fisher判别分析的损失函数(Loss Function)定义

我们定义 $z_i$ 表示为数据样本 ${(x_i,y_i)}$ 在向量 $\vec{w}$ 上的投影坐标，定义投影的均值: $\overline{z_i}$ ,投影的方差： $S_z$
$\overline{z_i}=\frac{1}{N}\sum_{i=1}^{N}z_i=\frac{1}{N}\sum_{i=1}^{N}w^Tx_i$
$S_z=\frac{1}{N}\sum_{i=1}^{N}(z_i-\overline{z})(z_i-\overline{z})^T$
那么对于两组样本可以表示为：
第一类点 $X_{C_1}:$
$\overline{z_1}=\frac{1}{N_1}\sum_{i=1}^{N_1}z_i=\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i$
$S_1=\frac{1}{N_1}\sum_{i=1}^{N_1}(z_i-\overline{z_1})(z_i-\overline{z_1})^T$
第一类点 $X_{C_2}:$
$\overline{z_2}=\frac{1}{N_2}\sum_{i=1}^{N_2}z_i=\frac{1}{N_2}\sum_{i=1}^{N_2}w^Tx_i$
$S_2=\frac{1}{N_2}\sum_{i=1}^{N_2}(z_i-\overline{z_2})(z_i-\overline{z_2})^T$
我们定义能够表达类内小，类间大的L(w)损失函数:
类内小： $S_1+S_2$ : 需要尽可能小
类间大： $(\overline{z_1}-\overline{z_2})^2$ 需要尽可能的大
$L(w)=\frac{(\overline{z_1}-\overline{z_2})^2}{S_1+S_2}$
以上我们就可以用数学模型表达出我们的目标：类内小，类间大

1.5 损失函数L(w)化简

1.5.1 $(\overline{z_1}-\overline{z_2})^2$ 化简

$=[\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i-\frac{1}{N_2}\sum_{i=1}^{N_2}w^Tx_i]^2$
$=(w^T[(\frac{1}{N_1}\sum_{i=1}^{N_1}x_i)-(\frac{1}{N_2}\sum_{i=1}^{N_2}x_i)])^2$
$=(w^T(\overline{X_{C1}}-\overline{X_{C2}}))^2$
$=w^T(\overline{X_{C1}}-\overline{X_{C2}})(\overline{X_{C1}}-\overline{X_{C2}})^Tw$

1.5.2 $S_1+S_2化简$

$S_1:$
$\frac{1}{N_1}\sum_{i=1}^{N_1}(z_i-\overline{z_1})(z_i-\overline{z_1})^T$
$=\frac{1}{N_1}\sum_{i=1}^{N_1}(w^Tx_i-\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i)(w^Tx_i-\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i)^T$
$=\sum_{i=1}^{N_1}[w^T\cdot\frac{1}{N_1}(x_i-\frac{1}{N_1}\sum_{i=1}^{N_1}x_i)][(x_i-\frac{1}{N_1}\sum_{i=1}^{N_1}x_i)^T\cdot w]$
$=\sum_{i=1}^{N_1}w^T\cdot[\frac{1}{N_1}(x_i-\overline{X_{C1}})(x_i-\overline{X_{C1}})^T]\cdot w$
$=w^T\cdot[\sum_{i=1}^{N_1}\frac{1}{N_1}(x_i-\overline{X_{C1}})(x_i-\overline{X_{C1}})^T]\cdot w$
$=w^T\cdot S_{C1}\cdot w$
$S_2:$
$=w^T\cdot S_{C2}\cdot w$
$S_1+S_2=w^T(S_{C1}+S_{C2})w$

1.5.3 L(W)化简

$L(W)=\frac{w^T(\overline{X_{C1}}-\overline{X_{C2}})(\overline{X_{C1}}-\overline{X_{C2}})^Tw}{w^T(S_{C1}+S_{C2})w}$
$我们定义两个变量S_b(between-class)类间方差；S_w(within-class)类内方差$
$类间方差：S_b=(\overline{X_{C1}}-\overline{X_{C2}})(\overline{X_{C1}}-\overline{X_{C2}})^T$
$类内方差：S_w=(S_{C1}+S_{C2})$
$结论：L(w)=\frac{w^TS_bw}{w^TS_ww}$

1.5.4 L(W)求梯度

矩阵公式：
$\frac{\partial{w^TXw}}{\partial w}=Xw$
$L(W)=w^TS_bw(w^TS_ww)^{-1}$
$\frac{\partial{L(W)}}{\partial w}=S_bw(w^TS_ww)^{-1}+w^TS_bw(-1)(w^TS_ww)^{-2}S_ww$
$我们令:\frac{\partial{L(W)}}{\partial w}=0$
$S_bw(w^TS_ww)^{-1}+w^TS_bw(-1)(w^TS_ww)^{-2}S_ww=0$
显然，w的维度是P×1， $w^T的维度是1×P,S_w的维度是P\times P,所以(w^TS_ww)是实数标量$
$注：w^TS_ww：维数：1\times p\cdot p\times p\cdot p\times 1=1实数$
$S_bw(w^TS_ww)=(w^TS_bw)S_ww$
$S_ww=\frac{(w^TS_ww)}{(w^TS_bw)}S_bw$
$结论：\hat{w}=\frac{(w^TS_ww)}{(w^TS_bw)}(S_w)^{-1}S_bw$
$我们对于上式的梯度结果看中的是方向而不是大小，所以我们可得：$
$\hat{w}=\frac{(w^TS_ww)}{(w^TS_bw)}(S_w)^{-1}S_bw\propto (S_w)^{-1}S_bw$
$(S_w)^{-1}S_bw=(S_w)^{-1}(\overline{X_{C1}}-\overline{X_{C2}})(\overline{X_{C1}}-\overline{X_{C2}})^Tw$
$(\overline{X_{C1}}-\overline{X_{C2}})^T维度为：1\times P;w维度为：P\times1$
$所以可得:(\overline{X_{C1}}-\overline{X_{C2}})^Tw是实数1 \times P \times P \times 1=1$
$(S_w)^{-1}S_bw\propto (S_w)^{-1}(\overline{X_{C1}}-\overline{X_{C2}})$
结论：我们求得的梯度的方向是 $(S_w)^{-1}(\overline{X_{C1}}-\overline{X_{C2}})$ ，如果 $S_w^{-1}$ 是一个各向同性的对角矩阵，那么我们可以得出 $S_w^{-1}\propto I$
$结论：\hat{w}\propto(\overline{X_{C1}}-\overline{X_{C2}})；此两个向量同方向$
所以我们求得了所要求的梯度的方向，大小就可以忽略。

取个名字真难呐

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
6-线性分类-fisher判别分析

文章目录1.线性判别分析算法简介1.1数据定义：1.2 Fisher判别分析图像表示：1.线性判别分析算法简介Fisher算法的主要思想是:类内小，类间大。相当于软件工程里面的松耦合，高内聚的思想，现在我们需要将这种思想用数学模型进行转换：同一类别数据集合之间的方差要小，要集中起来，不同类别的数据之间的均值的差值要大，方便区分。它是从数据降维的思想出发，把一组数据降到一条直线上后再进行区分。1.1数据定义：X=(x1,x2,...,xN)T=(x1Tx2T⋮xNT)=(x11x12...x1px21
复制链接

扫一扫