式3.5
∂
E
(
w
,
b
)
∂
w
=
2
(
w
∑
i
=
1
m
x
i
2
−
∑
i
=
1
m
(
y
i
−
b
)
x
i
)
\cfrac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)
∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi)
这个公式是线性回归模型的损失函数
E
(
w
,
b
)
E_{(w, b)}
E(w,b) 关于权重
w
w
w 的偏导数。线性回归模型通常用来预测一个连续的输出值,它是通过最小化实际值和预测值之间的均方误差来训练模型的。
损失函数 E ( w , b ) E_{(w, b)} E(w,b) 通常是这样定义的:
E ( w , b ) = ∑ i = 1 m ( y i − ( w x i + b ) ) 2 E_{(w, b)} = \sum_{i=1}^{m} (y_i - (wx_i + b))^2 E(w,b)=i=1∑m(yi−(wxi+b))2
其中:
- E ( w , b ) E_{(w, b)} E(w,b) 是损失函数,也称为均方误差(MSE)。
- w w w 是权重。
- b b b 是偏置项。
- x i x_i xi 是第 i i i 个样本的特征值。
- y i y_i yi 是第 i i i 个样本的真实目标值。
- m m m 是样本数量。
公式给出的偏导数是:
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) \frac{\partial E_{(w, b)}}{\partial w} = 2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right) ∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi)
这个偏导数的计算过程如下:
-
首先,对损失函数 E ( w , b ) E_{(w, b)} E(w,b) 应用链式法则和平方差公式进行展开。
-
然后,将 w w w 相关的项和 w w w 无关的项分开。
-
接着,提取公共因子 2,因为偏导数中 w w w 的系数是 2。
-
最后,得到关于 w w w 的偏导数表达式。
这个偏导数表达式是求解线性回归问题时梯度下降算法的关键部分。在梯度下降算法中,这个偏导数告诉我们如何调整权重 w w w 来减少损失函数的值,从而找到最佳拟合线。
注意,这个偏导数表达式是正确的,但是在实际应用中,我们通常会进一步简化它,通过将所有涉及 w w w 的项合并,得到更简洁的形式:
∂ E ( w , b ) ∂ w = − 2 ∑ i = 1 m ( y i − w x i − b ) x i \frac{\partial E_{(w, b)}}{\partial w} = -2 \sum_{i=1}^{m} (y_i - wx_i - b) x_i ∂w∂E(w,b)=−2i=1∑m(yi−wxi−b)xi
这个表达式可以直接用于更新权重 w w w。
式3.6
∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \cfrac{\partial E_{(w, b)}}{\partial b}=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right) ∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi))
给出的公式是线性回归模型的损失函数 E ( w , b ) E_{(w, b)} E(w,b) 关于偏置项 b b b 的偏导数。损失函数 E ( w , b ) E_{(w, b)} E(w,b) 通常定义为所有样本的预测误差平方和,形式如下:
E ( w , b ) = ∑ i = 1 m ( y i − ( w x i + b ) ) 2 E_{(w, b)} = \sum_{i=1}^{m} (y_i - (wx_i + b))^2 E(w,b)=i=1∑m(yi−(wxi+b))2
其中:
- E ( w , b ) E_{(w, b)} E(w,b) 是损失函数,即均方误差(MSE)。
- w w w 是权重。
- b b b 是偏置项。
- x i x_i xi 是第 i i i 个样本的特征值。
- y i y_i yi 是第 i i i 个样本的真实目标值。
- m m m 是样本数量。
现在,让我们计算关于 b b b 的偏导数:
- 损失函数展开:首先,将损失函数展开:
E ( w , b ) = ∑ i = 1 m ( y i 2 − 2 y i ( w x i + b ) + w 2 x i 2 + 2 b w x i + b 2 ) E_{(w, b)} = \sum_{i=1}^{m} (y_i^2 - 2y_i(wx_i + b) + w^2x_i^2 + 2bwx_i + b^2) E(w,b)=i=1∑m(yi2−2yi(wxi+b)+w2xi2+2bwxi+b2)
- 关于 b b b 的偏导数:然后,对 b b b 求偏导数,得到:
∂ E ( w , b ) ∂ b = − 2 ∑ i = 1 m ( y i − w x i − b ) \frac{\partial E_{(w, b)}}{\partial b} = -2 \sum_{i=1}^{m} (y_i - wx_i - b) ∂b∂E(w,b)=−2i=1∑m(yi−wxi−b)
- 简化偏导数:简化上述表达式,我们得到:
∂ E ( w , b ) ∂ b = 2 ( ∑ i = 1 m b − y i + w x i ) \frac{\partial E_{(w, b)}}{\partial b} = 2 \left( \sum_{i=1}^{m} b - y_i + wx_i \right) ∂b∂E(w,b)=2(i=1∑mb−yi+wxi)
- 进一步简化:注意到 ∑ i = 1 m b \sum_{i=1}^{m} b ∑i=1mb 实际上等于 m b mb mb,因为 b b b 是常数。因此,我们可以进一步简化为:
∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m y i + ∑ i = 1 m w x i ) \frac{\partial E_{(w, b)}}{\partial b} = 2 \left( mb - \sum_{i=1}^{m} y_i + \sum_{i=1}^{m} wx_i \right) ∂b∂E(w,b)=2(mb−i=1∑myi+i=1∑mwxi)
- 最终表达式:最终,我们得到关于 b b b 的偏导数的表达式:
∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m y i + w ∑ i = 1 m x i ) \frac{\partial E_{(w, b)}}{\partial b} = 2 \left( mb - \sum_{i=1}^{m} y_i + w \sum_{i=1}^{m} x_i \right) ∂b∂E(w,b)=2(mb−i=1∑myi+wi=1∑mxi)
这个偏导数表达式用于梯度下降算法中更新偏置项 b b b,以最小化损失函数 E ( w , b ) E_{(w, b)} E(w,b)。
式3.7
w
=
∑
i
=
1
m
y
i
(
x
i
−
x
ˉ
)
∑
i
=
1
m
x
i
2
−
1
m
(
∑
i
=
1
m
x
i
)
2
w=\cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2}
w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ)
给出的公式是用来计算线性回归模型中权重
w
w
w 的解析解,也就是当特征值
x
x
x 和目标值
y
y
y 存在线性关系时,通过最小化均方误差来得到的最优权重值。这个公式是普通最小二乘法(Ordinary Least Squares, OLS)的一个特例,用于单变量线性回归。
公式中的符号含义如下:
- w w w:线性回归模型的权重。
- m m m:样本数量。
- y i y_i yi:第 i i i 个样本的目标值。
- x i x_i xi:第 i i i 个样本的特征值。
- x ˉ \bar{x} xˉ:所有样本特征值的平均数,计算公式为 x ˉ = 1 m ∑ i = 1 m x i \bar{x} = \frac{1}{m}\sum_{i=1}^{m}x_i xˉ=m1∑i=1mxi。
公式的计算过程如下:
-
分子部分 ∑ i = 1 m y i ( x i − x ˉ ) \sum_{i=1}^{m}y_i(x_i-\bar{x}) ∑i=1myi(xi−xˉ) 是所有样本的目标值与特征值减去平均特征值的乘积之和。这实际上计算的是 y y y 和 x x x 的协方差减去 y y y 的平均值和 x x x 的平均值的乘积,即 Cov ( y , x ) − y ˉ x ˉ \text{Cov}(y, x) - \bar{y}\bar{x} Cov(y,x)−yˉxˉ。
-
分母部分 ∑ i = 1 m x i 2 \sum_{i=1}^{m}x_i^2 ∑i=1mxi2 是所有样本特征值平方的和。但是,这里减去了 1 m ( ∑ i = 1 m x i ) 2 \frac{1}{m}(\sum_{i=1}^{m}x_i)^2 m1(∑i=1mxi)2,这是所有样本特征值平均数的平方与样本数量的比值,这样做是为了调整分母,使得计算结果不依赖于特征值的尺度。
-
最终,权重 w w w 由分子和分母的比值决定,这给出了在最小化均方误差的条件下 x x x 和 y y y 之间的最优线性关系。
这个公式提供了一种快速计算线性回归模型参数的方法,而不需要使用迭代优化算法。在实际应用中,这种方法通常用于简单线性回归问题,或者作为更复杂模型的初始估计。
式3.9
w ^ ∗ = arg min w ^ ( y − X w ^ ) T ( y − X w ^ ) \hat{\boldsymbol{w}}^{*}=\underset{\hat{\boldsymbol{w}}}{\arg \min }(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}) w^∗=w^argmin(y−Xw^)T(y−Xw^)
给出的公式是线性回归问题中,通过最小化均方误差(Mean Squared Error, MSE)来求解模型参数 w ^ \hat{\boldsymbol{w}} w^ 的解析解。这里的 w ^ ∗ \hat{\boldsymbol{w}}^{*} w^∗ 表示最优权重向量,它是使得损失函数最小的权重向量的估计值。
公式中的符号含义如下:
- w ^ \hat{\boldsymbol{w}} w^:模型的权重向量,需要被估计的参数。
- y \boldsymbol{y} y:目标值向量,包含了所有样本的真实目标值。
- X \mathbf{X} X:设计矩阵(Design Matrix),包含了所有样本的特征值,每一行代表一个样本,每一列代表一个特征。
- arg min \arg \min argmin:表示寻找使得后面表达式最小的参数的值。
- ( y − X w ^ ) (\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}) (y−Xw^):预测误差向量,即目标值与模型预测值之间的差。
- ( y − X w ^ ) T (\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}} (y−Xw^)T:误差向量的转置。
损失函数是:
( y − X w ^ ) T ( y − X w ^ ) (\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}) (y−Xw^)T(y−Xw^)
这个表达式实际上是误差向量的点积,计算了所有预测误差的平方和,也就是均方误差。
为了找到 w ^ ∗ \hat{\boldsymbol{w}}^{*} w^∗,我们可以对损失函数求导,并令导数等于零来找到最小值。具体步骤如下:
-
展开损失函数:首先,将损失函数展开为 w ^ \hat{\boldsymbol{w}} w^ 的二次形式。
-
求导:对 w ^ \hat{\boldsymbol{w}} w^ 求偏导数。
-
令导数为零:将偏导数设置为零,解出 w ^ \hat{\boldsymbol{w}} w^。
-
求解最优权重:通过求解得到的方程,可以得到 w ^ ∗ \hat{\boldsymbol{w}}^{*} w^∗ 的解析解。
在数学上,这个解析解通常表示为:
w ^ ∗ = ( X T X ) − 1 X T y \hat{\boldsymbol{w}}^{*} = (\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y} w^∗=(XTX)−1XTy
这个解被称为正规方程(Normal Equation)的解。它提供了一种直接计算线性回归模型参数的方法,而不需要迭代优化算法。当设计矩阵 X \mathbf{X} X 的列向量是线性独立的,且 X T X \mathbf{X}^{\mathrm{T}}\mathbf{X} XTX 是可逆的时,这个解是有效的。
式3.10
∂
E
w
^
∂
w
^
=
2
X
T
(
X
w
^
−
y
)
\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})
∂w^∂Ew^=2XT(Xw^−y)
给出的公式是线性回归模型的损失函数
E
w
^
E_{\hat{\boldsymbol w}}
Ew^ 关于权重向量
w
^
\hat{\boldsymbol w}
w^ 的梯度。损失函数
E
w
^
E_{\hat{\boldsymbol w}}
Ew^ 是均方误差(Mean Squared Error, MSE),定义为预测值与实际目标值之差的平方和。
损失函数可以表示为:
E
w
^
=
(
X
w
^
−
y
)
T
(
X
w
^
−
y
)
E_{\hat{\boldsymbol w}} = (\mathbf{X}\hat{\boldsymbol w} - \boldsymbol{y})^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w} - \boldsymbol{y})
Ew^=(Xw^−y)T(Xw^−y)
其中:
- X \mathbf{X} X 是设计矩阵,包含了所有样本的特征值。
- w ^ \hat{\boldsymbol w} w^ 是模型的权重向量。
- y \boldsymbol{y} y 是目标值向量,包含了所有样本的真实目标值。
梯度 ∂ E w ^ ∂ w ^ \frac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}} ∂w^∂Ew^ 是损失函数对权重向量的偏导数,用于指导梯度下降算法中权重的更新。梯度是一个向量,指向损失函数增长最快的方向。为了最小化损失函数,梯度下降算法会沿着梯度的负方向更新权重。
给定的梯度公式是正确的,它是这样推导出来的:
-
损失函数展开:首先,将损失函数展开为 w ^ \hat{\boldsymbol w} w^ 的函数。
-
求偏导数:对 w ^ \hat{\boldsymbol w} w^ 求偏导数,应用链式法则和向量求导的规则。
-
结果:得到的结果是 2 X T ( X w ^ − y ) 2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w} - \boldsymbol{y}) 2XT(Xw^−y),这是损失函数对权重向量 w ^ \hat{\boldsymbol w} w^ 的梯度。
这个梯度表达式是线性回归中梯度下降算法的关键部分,用于在每一步迭代中更新权重向量
w
^
\hat{\boldsymbol w}
w^,以减少预测误差并找到最优解。权重更新的一般形式是:
w
^
:
=
w
^
−
α
⋅
∂
E
w
^
∂
w
^
\hat{\boldsymbol w} := \hat{\boldsymbol w} - \alpha \cdot \frac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}
w^:=w^−α⋅∂w^∂Ew^
其中
α
\alpha
α 是学习率,一个超参数,用于控制每次更新的步长。
式3.27
ℓ ( β ) = ∑ i = 1 m ( − y i β T x ^ i + ln ( 1 + e β T x ^ i ) ) \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}(-y_i\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i+\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})) ℓ(β)=i=1∑m(−yiβTx^i+ln(1+eβTx^i))
给出的公式 ℓ ( β ) \ell(\boldsymbol{\beta}) ℓ(β) 是逻辑回归(Logistic Regression)模型的对数似然损失函数(Log-Likelihood Loss),用于二分类问题中。逻辑回归是一种广泛使用的线性分类算法,它预测的是事件发生的概率。
公式中的符号含义如下:
- ℓ ( β ) \ell(\boldsymbol{\beta}) ℓ(β):对数似然损失函数,用于衡量模型参数 β \boldsymbol{\beta} β 的好坏。
- m m m:样本数量。
- y i y_i yi:第 i i i 个样本的真实目标值,通常取值为 0 或 1。
- β \boldsymbol{\beta} β:模型参数向量,类似于线性回归中的权重向量。
- x ^ i \hat{\boldsymbol x}_i x^i:第 i i i 个样本的特征向量,可能已经包含了偏置项(截距项)。
- e e e:自然对数的底数。
这个损失函数由两部分组成:
-
第一部分 − y i β T x ^ i -y_i \boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol x}_i −yiβTx^i 衡量的是当模型预测 β T x ^ i \boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol x}_i βTx^i 时,实际目标值 y i y_i yi 为 0 或 1 的概率的对数。如果 y i y_i yi 为 1,这部分表示正确分类的对数几率(log-odds);如果 y i y_i yi 为 0,这部分表示错误分类的惩罚。
-
第二部分 ln ( 1 + e β T x ^ i ) \ln(1 + e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol x}_i}) ln(1+eβTx^i) 是模型预测正类( y i = 1 y_i = 1 yi=1)的概率的对数。这部分确保了即使对于正类预测非常有信心的情况,损失也不会趋向负无穷。
逻辑回归的目标是找到参数向量 β \boldsymbol{\beta} β,使得对数似然损失函数 ℓ ( β ) \ell(\boldsymbol{\beta}) ℓ(β) 最小化。这通常通过优化算法(如梯度下降)来实现,通过计算损失函数关于 β \boldsymbol{\beta} β 的梯度,并迭代更新 β \boldsymbol{\beta} β 来完成。
梯度的形式如下:
∂ ℓ ( β ) ∂ β = − ∑ i = 1 m ( y i 1 + e − β T x ^ i − 1 1 + e β T x ^ i ) x ^ i \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = -\sum_{i=1}^{m} \left( \frac{y_i}{1 + e^{-\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol x}_i}} - \frac{1}{1 + e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol x}_i}} \right) \hat{\boldsymbol x}_i ∂β∂ℓ(β)=−i=1∑m(1+e−βTx^iyi−1+eβTx^i1)x^i
这个梯度表达式用于指导参数 β \boldsymbol{\beta} β 的更新,以最小化损失函数。
式3.30
∂ ℓ ( β ) ∂ β = − ∑ i = 1 m x ^ i ( y i − p 1 ( x ^ i ; β ) ) \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}=-\sum_{i=1}^{m}\hat{\boldsymbol x}_i(y_i-p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})) ∂β∂ℓ(β)=−i=1∑mx^i(yi−p1(x^i;β))
给出的公式是逻辑回归模型对数似然损失函数 ℓ ( β ) \ell(\boldsymbol{\beta}) ℓ(β) 关于参数向量 β \boldsymbol{\beta} β 的梯度。这个梯度用于在优化过程中更新参数,以最小化损失函数。
逻辑回归的对数似然损失函数是:
ℓ ( β ) = ∑ i = 1 m ( − y i β T x i ^ + ln ( 1 + e β T x ^ i ) ) \ell(\boldsymbol{\beta}) = \sum_{i=1}^{m} \left( -y_i \boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol x_i} + \ln(1 + e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol x}_i}) \right) ℓ(β)=i=1∑m(−yiβTxi^+ln(1+eβTx^i))
其中:
- m m m 是样本数量。
- y i y_i yi 是第 i i i 个样本的真实标签。
- x ^ i \hat{\boldsymbol x}_i x^i 是第 i i i 个样本的特征向量。
- β \boldsymbol{\beta} β 是模型参数向量。
p 1 ( x ^ i ; β ) p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta}) p1(x^i;β) 是模型预测第 i i i 个样本为类别 1 的概率,由下式给出:
p 1 ( x ^ i ; β ) = 1 1 + e − β T x ^ i p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta}) = \frac{1}{1 + e^{-\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol x}_i}} p1(x^i;β)=1+e−βTx^i1
梯度公式中的 y i − p 1 ( x ^ i ; β ) y_i - p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta}) yi−p1(x^i;β) 表示第 i i i 个样本的预测概率和实际标签之间的误差,这个误差也被称为“对数几率残差”。
梯度 ∂ ℓ ( β ) ∂ β \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} ∂β∂ℓ(β) 是:
∂ ℓ ( β ) ∂ β = − ∑ i = 1 m x ^ i ( y i − p 1 ( x ^ i ; β ) ) \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = -\sum_{i=1}^{m}\hat{\boldsymbol x}_i(y_i - p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})) ∂β∂ℓ(β)=−i=1∑mx^i(yi−p1(x^i;β))
这个梯度的计算涉及对每个样本的残差 y i − p 1 ( x ^ i ; β ) y_i - p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta}) yi−p1(x^i;β) 与其特征向量的乘积求和。在梯度下降算法中,这个梯度用于更新参数 β \boldsymbol{\beta} β,以减少模型的预测误差。
注意,梯度的符号在不同的文献中可能有所不同,这取决于对数似然函数的定义方式。在一些文献中,梯度可能带有正号,因为它们定义的损失函数是预测概率的对数与实际标签的乘积,而不是它们的差值。
式3.32
J = w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w w T ( Σ 0 + Σ 1 ) w J=\cfrac{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1})\boldsymbol w} J=wT(Σ0+Σ1)wwT(μ0−μ1)(μ0−μ1)Tw
给出的公式 J J J 表示的是两个高斯分布(正态分布)之间的一种距离度量,通常用于机器学习和统计学中的分类问题。这个度量有时被称为“Jeffries距离”或“Fisher线性判别分析(LDA)中的判别值”。
公式中的符号含义如下:
- w \boldsymbol{w} w:待分类的样本的特征向量。
- μ 0 \boldsymbol{\mu}_0 μ0 和 μ 1 \boldsymbol{\mu}_1 μ1:分别为两个不同类别的均值向量。
- Σ 0 \boldsymbol{\Sigma}_0 Σ0 和 Σ 1 \boldsymbol{\Sigma}_1 Σ1:分别为两个不同类别的协方差矩阵。
这个度量 J J J 的计算过程如下:
-
分子部分 w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w \boldsymbol w^T({\mu_0-\mu_1)(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})^{\mathrm{T}}\boldsymbol w} wT(μ0−μ1)(μ0−μ1)Tw 表示样本 w \boldsymbol w w 与两个类别均值向量差值的内积,这个差值被加权,反映了样本与两个类别中心的相对距离。
-
分母部分 w T ( Σ 0 + Σ 1 ) w \boldsymbol w^{\mathrm{T}}(\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1})\boldsymbol w wT(Σ0+Σ1)w 是样本 w \boldsymbol w w 与两个类别协方差矩阵和的内积,这反映了样本在特征空间中的分布情况。
-
整个比值 J J J 表示了样本相对于两个类别均值的加权距离与样本在特征空间分布的比率,这个值可以用来评估样本更可能属于哪个类别。
在实际应用中,这个度量可以用于线性判别分析(LDA),帮助确定最佳的线性组合特征,以区分不同的类别。当 J J J 的值较大时,样本 w \boldsymbol w w 更可能属于均值向量 μ 1 \boldsymbol{\mu}_1 μ1 所代表的类别;当 J J J 的值较小时,样本更可能属于 μ 0 \boldsymbol{\mu}_0 μ0 所代表的类别。
式3.37
S b w = λ S w w \mathbf{S}_b\boldsymbol w=\lambda\mathbf{S}_w\boldsymbol w Sbw=λSww
给出的公式是特征值分解(Eigenvalue Decomposition)或特征向量分析(Eigenvector Analysis)中的一个方程,通常用于线性代数和多种数学领域,包括机器学习中的主成分分析(PCA)和线性判别分析(LDA)。
公式中的符号含义如下:
- S b \mathbf{S}_b Sb:基矩阵或散布矩阵,通常表示为样本协方差矩阵或类间散布矩阵。
- w \boldsymbol w w:待求的特征向量。
- λ \lambda λ:特征值,是一个标量。
- S w \mathbf{S}_w Sw:在某些文献中,这可能表示类内散布矩阵或单位矩阵,但在不同的上下文中可能有不同的含义。
特征值分解的基本思想是找到一个非零向量 w \boldsymbol w w,使得当它与 S b \mathbf{S}_b Sb 相乘时,结果与 w \boldsymbol w w 成正比,比例因子为 λ \lambda λ。数学上,这可以表示为:
S b w = λ w \mathbf{S}_b \boldsymbol w = \lambda \boldsymbol w Sbw=λw
这个方程说明 w \boldsymbol w w 是 S b \mathbf{S}_b Sb 的一个特征向量,而 λ \lambda λ 是对应的特征值。
在机器学习的应用中:
- 在主成分分析(PCA)中, S b \mathbf{S}_b Sb 通常是数据的协方差矩阵或中心化数据的协方差矩阵,特征值分解用于找到数据的主要变化方向。
- 在线性判别分析(LDA)中, S b \mathbf{S}_b Sb 可以是类间散布矩阵,而 S w \mathbf{S}_w Sw 可以是类内散布矩阵,特征值分解用于找到最佳的线性组合特征,以最大化类间可分性。
特征值和特征向量的概念在许多领域都非常有用,因为它们提供了一种理解线性变换本质的方法。在特征值分解中,矩阵 S b \mathbf{S}_b Sb 必须是方阵,即行数和列数相同,这样才能保证存在特征值和特征向量。特征向量 w \boldsymbol w w 通常被规范化,使其长度为 1。
式3.38
S
b
w
=
λ
(
μ
0
−
μ
1
)
\mathbf{S}_b\boldsymbol{w}=\lambda(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})
Sbw=λ(μ0−μ1)
给出的公式是线性判别分析(Linear Discriminant Analysis, LDA)中的一个关键方程,用于找到最佳的线性组合特征,以便在特征空间中最大化类间可分性。
公式中的符号含义如下:
- S b \mathbf{S}_b Sb:类间散布矩阵(Between-class Scatter Matrix),计算公式为 S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T \mathbf{S}_b = (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)(\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)^{\mathrm{T}} Sb=(μ0−μ1)(μ0−μ1)T,其中 μ 0 \boldsymbol{\mu}_0 μ0 和 μ 1 \boldsymbol{\mu}_1 μ1 分别是两个类别的均值向量。
- w \boldsymbol{w} w:待求的特征向量,用于线性变换以最大化类间可分性。
- λ \lambda λ:特征值,用于缩放特征向量 w \boldsymbol{w} w。
- μ 0 \boldsymbol{\mu}_0 μ0 和 μ 1 \boldsymbol{\mu}_1 μ1:两个不同类别的均值向量。
这个方程的意义是,特征向量 w \boldsymbol{w} w 被类间散布矩阵 S b \mathbf{S}_b Sb 乘以后,得到的向量与两个类别均值向量的差 ( μ 0 − μ 1 ) (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1) (μ0−μ1) 成正比。特征值 λ \lambda λ 决定了这个比例的大小。
在 LDA 中,我们通常希望找到最大的特征值 λ \lambda λ 对应的特征向量 w \boldsymbol{w} w,因为这样的特征向量能够提供最大的类间可分性。换句话说,我们希望找到这样的 w \boldsymbol{w} w,使得在 w \boldsymbol{w} w 方向上,不同类别的样本点尽可能分开。
求解这个方程的过程通常涉及以下步骤:
- 计算两个类别的均值向量 μ 0 \boldsymbol{\mu}_0 μ0 和 μ 1 \boldsymbol{\mu}_1 μ1。
- 构建类间散布矩阵 S b \mathbf{S}_b Sb。
- 对 S b \mathbf{S}_b Sb 进行特征值分解,找到特征值 λ \lambda λ 和对应的特征向量 w \boldsymbol{w} w。
- 选择最大的特征值对应的特征向量作为最优的线性判别特征。
在实际应用中,这些特征向量可以用于将原始特征空间中的数据投影到更低维的空间,同时尽可能保留类别可分性。
式3.39
w = S w − 1 ( μ 0 − μ 1 ) \boldsymbol{w}=\mathbf{S}_{w}^{-1}(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}) w=Sw−1(μ0−μ1)
给出的公式是用于计算线性判别分析(Linear Discriminant Analysis, LDA)中线性判别系数(或称投影方向) w \boldsymbol{w} w的一种方法。这种方法特别适用于二类问题,旨在找到一个方向(由向量 w \boldsymbol{w} w 表示),在这个方向上,两个类别的均值向量 μ 0 \boldsymbol{\mu}_0 μ0 和 μ 1 \boldsymbol{\mu}_1 μ1 之间的距离最大化,同时考虑类内的变化。
公式中的符号含义如下:
- w \boldsymbol{w} w:要找到的权重向量或投影方向。
- S w \mathbf{S}_{w} Sw:类内散布矩阵(Within-class Scatter Matrix),计算公式为 S w = S w 0 + S w 1 \mathbf{S}_{w} = \mathbf{S}_{w0} + \mathbf{S}_{w1} Sw=Sw0+Sw1,其中 S w 0 \mathbf{S}_{w0} Sw0 和 S w 1 \mathbf{S}_{w1} Sw1 分别是两个类别各自的散布矩阵。
- μ 0 \boldsymbol{\mu}_{0} μ0 和 μ 1 \boldsymbol{\mu}_{1} μ1:两个类别的均值向量。
公式的含义是,通过将两个类别的均值向量之差 ( μ 0 − μ 1 ) (\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}) (μ0−μ1) 与类内散布矩阵的逆 S w − 1 \mathbf{S}_{w}^{-1} Sw−1 相乘,可以得到一个方向 w \boldsymbol{w} w,这个方向能够最大化类间距离,同时最小化类内距离。
在实际应用中,这种方法通常用于:
- 计算两个类别的均值向量 μ 0 \boldsymbol{\mu}_{0} μ0 和 μ 1 \boldsymbol{\mu}_{1} μ1。
- 构建类内散布矩阵 S w \mathbf{S}_{w} Sw。
- 计算 S w \mathbf{S}_{w} Sw 的逆矩阵 S w − 1 \mathbf{S}_{w}^{-1} Sw−1。
- 将 S w − 1 \mathbf{S}_{w}^{-1} Sw−1 与均值向量之差 ( μ 0 − μ 1 ) (\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}) (μ0−μ1) 相乘,得到 w \boldsymbol{w} w。
得到的 w \boldsymbol{w} w 可以用于将数据投影到一个新的特征空间,在这个空间中,两个类别尽可能分开。这在模式识别、图像处理和生物识别等领域有广泛应用。
式3.43
S b = S t − S w = ∑ i = 1 N m i ( μ i − μ ) ( μ i − μ ) T \begin{aligned} \mathbf{S}_b &= \mathbf{S}_t - \mathbf{S}_w \\ &= \sum_{i=1}^N m_i(\boldsymbol\mu_i-\boldsymbol\mu)(\boldsymbol\mu_i-\boldsymbol\mu)^{\mathrm{T}} \end{aligned} Sb=St−Sw=i=1∑Nmi(μi−μ)(μi−μ)T
给出的公式描述了线性判别分析(LDA)中的类间散布矩阵 S b \mathbf{S}_b Sb 的计算方法。这个矩阵是用来衡量不同类别(class)之间的数据分布差异的。
公式中的符号含义如下:
- S b \mathbf{S}_b Sb:类间散布矩阵(Between-class Scatter Matrix)。
- S t \mathbf{S}_t St:总体散布矩阵(Total Scatter Matrix),表示所有数据点的总散布。
- S w \mathbf{S}_w Sw:类内散布矩阵(Within-class Scatter Matrix),表示每个类别内部数据点的散布。
- N N N:类别的总数。
- m i m_i mi:第 i i i 个类别中的样本数量。
- μ i \boldsymbol\mu_i μi:第 i i i 个类别的样本均值向量。
- μ \boldsymbol\mu μ:所有样本的总体均值向量。
类间散布矩阵 S b \mathbf{S}_b Sb 的计算公式如下:
S b = ∑ i = 1 N m i ( μ i − μ ) ( μ i − μ ) T \mathbf{S}_b = \sum_{i=1}^N m_i(\boldsymbol\mu_i - \boldsymbol\mu)(\boldsymbol\mu_i - \boldsymbol\mu)^{\mathrm{T}} Sb=i=1∑Nmi(μi−μ)(μi−μ)T
这个公式的含义是,对于每个类别,计算该类别的均值向量 μ i \boldsymbol\mu_i μi 与总体均值向量 μ \boldsymbol\mu μ 之差,然后将这个差值乘以其转置,最后乘以该类别的样本数量 m i m_i mi。对所有类别进行求和,得到 S b \mathbf{S}_b Sb。
这个矩阵反映了不同类别中心之间的距离和分布。在LDA中,我们希望找到这样的特征空间,在这个空间中,类间散布矩阵 S b \mathbf{S}_b Sb 是最大的,而类内散布矩阵 S w \mathbf{S}_w Sw 是最小的。这样,我们可以最大化类别之间的区分度,同时最小化类别内部的变异度。
在实际应用中,我们通常通过特征值分解来找到 S b \mathbf{S}_b Sb 和 S w \mathbf{S}_w Sw 的特征向量,然后选择特征值最大的特征向量作为线性判别空间的基。这些基向量定义了新的特征空间,在这个空间中,不同类别的数据更容易被分开。
式3.44
max W tr ( W T S b W ) tr ( W T S w W ) \max\limits_{\mathbf{W}}\cfrac{ \operatorname{tr}(\mathbf{W}^{\mathrm{T}}\mathbf{S}_b \mathbf{W})}{\operatorname{tr}(\mathbf{W}^{\mathrm{T}}\mathbf{S}_w \mathbf{W})} Wmaxtr(WTSwW)tr(WTSbW)
给出的公式是线性判别分析(Linear Discriminant Analysis, LDA)中的一个优化问题,用于寻找一个变换矩阵 W \mathbf{W} W,以最大化类间可分性相对于类内可分性的比率。这个问题通常被称为特征值问题或广义特征值问题。
公式中的符号含义如下:
- max W \max\limits_{\mathbf{W}} Wmax:表示我们正在寻找一个矩阵 W \mathbf{W} W,使得下面的比率达到最大。
- tr ( ⋅ ) \operatorname{tr}(\cdot) tr(⋅):矩阵的迹(trace)函数,它返回一个方阵对角线元素的总和。
- W \mathbf{W} W:待优化的变换矩阵,其列由若干个线性判别特征向量组成。
- S b \mathbf{S}_b Sb:类间散布矩阵(Between-class Scatter Matrix),衡量不同类别之间的数据分布差异。
- S w \mathbf{S}_w Sw:类内散布矩阵(Within-class Scatter Matrix),衡量每个类别内部数据点的散布。
优化问题可以表示为:
max W tr ( W T S b W ) tr ( W T S w W ) \max_{\mathbf{W}} \frac{\operatorname{tr}(\mathbf{W}^{\mathrm{T}}\mathbf{S}_b \mathbf{W})}{\operatorname{tr}(\mathbf{W}^{\mathrm{T}}\mathbf{S}_w \mathbf{W})} Wmaxtr(WTSwW)tr(WTSbW)
这个比率有时被称为散布比率(scatter ratio),其中分子表示变换后数据的类间方差,分母表示类内方差。我们的目标是找到一个变换矩阵 W \mathbf{W} W,使得变换后的类间方差最大化,同时类内方差最小化。
在实践中,这个问题通常通过以下步骤求解:
- 计算类间散布矩阵 S b \mathbf{S}_b Sb 和类内散布矩阵 S w \mathbf{S}_w Sw。
- 将这个优化问题转化为广义特征值问题:
S w − 1 S b w i = λ i w i \mathbf{S}_w^{-1}\mathbf{S}_b \mathbf{w}_i = \lambda_i \mathbf{w}_i Sw−1Sbwi=λiwi
其中, w i \mathbf{w}_i wi 是特征向量, λ i \lambda_i λi 是对应的特征值。 - 求解上述广义特征值问题,得到一组特征向量和特征值。
- 选择最大的 k k k 个特征值对应的特征向量,构成变换矩阵 W \mathbf{W} W。
得到的 W \mathbf{W} W 可以将原始数据投影到一个新的 k k k 维特征空间,这个空间上的类别可分性被优化。这在模式识别、图像处理和生物识别等领域有广泛应用。
式3.45
S
b
W
=
λ
S
w
W
\mathbf{S}_b\mathbf{W}=\lambda\mathbf{S}_w\mathbf{W}
SbW=λSwW
给出的方程是线性判别分析(Linear Discriminant Analysis, LDA)中的一个关键方程,用于寻找最佳的特征子空间。这个方程是一个广义特征值问题(generalized eigenvalue problem),其中:
- S b \mathbf{S}_b Sb 是类间散布矩阵(Between-class Scatter Matrix),它衡量了不同类别中心之间的距离。
- S w \mathbf{S}_w Sw 是类内散布矩阵(Within-class Scatter Matrix),它衡量了每个类别内部数据点的分布。
- W \mathbf{W} W 是一个矩阵,其列由线性判别分析的特征向量组成。
- λ \lambda λ 是特征值,表示每个特征向量对应的特征值。
广义特征值问题的形式是:
S b W = λ S w W \mathbf{S}_b \mathbf{W} = \lambda \mathbf{S}_w \mathbf{W} SbW=λSwW
这里,我们不是在寻找 S b \mathbf{S}_b Sb 或 S w \mathbf{S}_w Sw 的特征向量,而是在寻找满足上述方程的 W \mathbf{W} W 的列向量。这些列向量(特征向量)定义了一个新的特征空间,在这个空间中,类间散布相对于类内散布被最大化。
求解这个广义特征值问题通常涉及以下步骤:
- 计算类间散布矩阵 S b \mathbf{S}_b Sb 和类内散布矩阵 S w \mathbf{S}_w Sw。
- 构建广义特征值问题,并求解得到特征向量和特征值。
- 根据特征值的大小,选择前 k k k 个最大的特征值对应的特征向量,这些特征向量构成了矩阵 W \mathbf{W} W。
- 使用矩阵 W \mathbf{W} W 将原始数据投影到新的特征空间,这个空间上的维度低于原始空间,并且保留了类别可分性。
在实际应用中,这个新的特征空间可以用于分类任务,其中类别之间的区分度更高,有助于提高分类器的性能。