[吃瓜教程]南瓜书第3章二分类线性判别分析

不是吧这都有重名

于 2024-06-28 23:16:14 发布

阅读量1k

点赞数 9

分类专栏：西瓜书系列文章标签：分类概率论机器学习

本文链接：https://blog.csdn.net/qq_41776136/article/details/140052157

版权

西瓜书系列专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1.算法原理（模型）

线性判别分析（Linear Discriminant Analysis,LDA）是一种经典的线性学习方法，亦称为Fisher判别分析。
LDA 的思想：
给定训练样本集，将全体样本投影到一条直线上，使的：

同类样例的投影点总体尽可能接近/同类样本的方差尽可能小；
异类样本的投影点总体尽可能远离/异类样本的中心尽可能远；

2.损失函数推导（策略）

2.0 补充

1.范数（Norm）是一个在向量空间中用于量度向量大小的函数。它满足以下性质：

非负性：对于任何向量x，有||x|| $\geq$ 0且||x||=0当且仅当x=0;
齐次性（正齐次性）：对于任何标量 $\alpha$ 和任何向量x,有 $||\alpha x||=|\alpha|||x||$
三角不等式：对于任何向量x和y，有 $||x+y||\leq||x||+||y||$

一般的p-范数定义为：
$\|\mathbf{x}\|_p = \left( \sum_{i=1}^{n} |x_i|^p \right)^{\frac{1}{p}}$

2.协方差和协方差矩阵：
方差和协方差是统计学中用于描述数据分布和关系的重要指标。
方差
方差是描述一个随机变量的离散程度的度量，表示数据点与均值之间的偏离程度。
公式
样本方差：
$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$
总体方差：
$\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2$
协方差
协方差是描述两个随机变量之间的线性关系的度量。它反映了一个变量变化时另一个变量的变化方向。
公式
样本方差：
$\text{cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$
总体方差：
$\sigma_{XY} = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu_X)(y_i - \mu_Y)$
协方差矩阵：

协方差矩阵	$x_1$	$x_2$
$x_1$	$\text{cov}(x_1, x_1)$	$\text{cov}(x_1, x_2)$
$x_2$	$\text{cov}(x_2, x_1)$	$\text{cov}(x_2, x_2)$

2.1推导过程

设要投影的直线为 $\boldsymbol \omega$ ， $\mu_0,\mu_1$ 分别表示反例集合和正例集合的均值向量， $\theta_0,\theta_1$ 分别表示反例集合和正例集合的均值向量与投影直线的夹角，围绕上面思想中的中心和方差两个点来进行推导：
1.异类样本的中心要尽可能远：
$|\mu_0|cos\theta 表示\mu_0到\omega的投影的长$
为了实现异类样本的中心尽可能的远，那么就应该求下式：
$max||(|\mu_0|cos\theta-|\mu_1|cos\theta)||^2_2$
在看上面的式子，发现这个 $\theta$ 不好得到，那就进一步化，在上式中乘以一个常量（不会影响求最大值） $|\omega|$ ，注意这里是减完之后是个向量，因此要用到范数来衡量向量大小，而平方是为了简化计算，得到，
$max||(|\omega||\mu_0|cos\theta-|\omega||\mu_1|cos\theta)||^2_2$
即得到，
$max||\omega^T\mu_0-\omega^T\mu_1||^2_2$
2.同类样本的方差要尽可能小：
$min({\omega^T(\sum_0+\sum_1)\omega})$

最终得到损失函数：
$=max(\frac{||\omega^T\mu_0-\omega^T\mu_1||^2_2}{\omega^T\sum_0\omega+\omega^T\sum_1\omega})\newline -------------\newline =max(\frac{||(\omega^T\mu_0-\omega^T\mu_1)^T||^2_2}{\omega^T(\sum_0+\sum_1)\omega})\newline -------------\newline =max(\frac{||(\mu_0-\mu_1)^T\omega||^2_2}{\omega^T(\sum_0+\sum_1)\omega})\newline -------------\newline =max(\frac{[(\mu_0-\mu_1)^T\omega]^T(\mu_0-\mu_1)^T\omega}{\omega^T(\sum_0+\sum_1)\omega})\newline -------------\newline =max(\frac{\omega^T(\mu_0-\mu_1)(\mu_0-\mu_1)^T\omega}{\omega^T(\sum_0+\sum_1)\omega})\newline$
第一步到第二步是可以这么理解：1*1的向量转置不变。
进一步，把上面的式子的中间部分记作 $S_b$ ,下面式子的中间部分记作 $S_w$ ,得到：
$maxJ=\frac{w^TS_bw}{w^TS_ww}$
转化为最小化：
$-w^TS_bw \newline s.t. \ w^TS_ww=1$

3.求解w（算法)

3.0 补充：拉格朗日乘子法

拉格朗日乘子法是一种在约束条件下求解多元函数极值的数学方法。它通过引入拉格朗日乘子，将约束优化问题转换为无约束优化问题。该方法特别适用于等式约束的情况。
拉格朗日乘子法的步骤
**1.构造拉格朗日函数：**将目标函数和约束条件结合，形成拉格朗日函数。
$\mathcal{L}(x_1,x_2, \ldots, x_n, \lambda_1, \lambda_2, \ldots, \lambda_m) = f(x_1, x_2, \ldots, x_n) + \sum_{i=1}^{m} \lambda_i g_i(x_1, x_2, \ldots, x_n)$
**2.求拉格朗日函数的偏导数：**对所有变量求偏导数，并令这些偏导数等于零，得到一组方程。
$\frac{\partial \mathcal{L}}{\partial x_j} = 0 \quad (j = 1, 2, \ldots, n)$
$\frac{\partial \mathcal{L}}{\partial \lambda_i} = 0 \quad (i = 1, 2, \ldots, m)$
3.解方程组： 通过解上一步得到的方程组,得到值。

3.1求解w过程

由拉格朗日乘子法可得到拉格朗日函数为：
$L(w,\lambda)=-w^TS_bw+\lambda(w^TS_ww-1)$
对w求偏导得到(使用矩阵微分公式)
$\frac{\partial L(w,\lambda)}{\partial w}=-\frac{\partial(w^TS_bw)}{\partial w}+\lambda\frac{\partial(w^TS_ww-1)}{\partial w}\newline -------\newline=-(S_b+S_b^T)w+\lambda(S_W+S_w^T)w\newline -------\newline=-2S_bw+2\lambda S_ww$
令上式等于0得到，
$-2S_bw+2\lambda S_ww=0$
$\lambda S_ww=S_bw$
$\lambda S_ww=(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$
若令 $(\mu_0-\mu_1)^Tw=\gamma$ （一个数）,则
$\lambda S_ww=(\mu_0-\mu_1)\gamma$
$w=\frac \gamma \lambda S_w^{-1}(\mu_0-\mu_1)$
由于不关心w的大小只关心方向，所以可令 $\gamma=\lambda$ ,即得到最终的求解公式。

4.广义特征值和广义利瑞商

4.1广义特征值

设A,B为n阶方阵，若存在数 $\lambda$ ,使得方程 $Ax=\lambda Bx$ 存在非零解，则称 $\lambda$ 为A相对于B 的广义特征值，x为A 相对于B的属于广义特征值 $\lambda$ 的特征向量。特别的，当B=I（单位矩阵）时，广义特征值问题退化为标准特征值问题。

4.2广义利瑞商

设A，B为n阶厄米（Hermitian）矩阵，且B 正定，称 $R(x)=\frac{x^HAx}{x^HBx}(x\neq0)$ 为A相对于B 的广义瑞利商。特别的，当B=I（单位矩阵）时，广义瑞利商退化为瑞利商。
性质：
设 $\lambda_i,x_i(i=1,2,...,n)$ 为A相对于B的广义特征值和特征向量，且 $\lambda_1\leq\lambda_2\leq...\leq\lambda_n$ 。
$min_{x\neq 0}R(x)=\frac{x^HAx}{x^HBx}=\lambda_1,x^*=x_1$
$max_{x\neq 0}R(x)=\frac{x^HAx}{x^HBx}=\lambda_n,x^*=x_n$
上述性质可用来证明多分类线性判别分析