数学运算与最小二乘法在机器学习中的应用-CSDN博客

本文链接：https://blog.csdn.net/by6671715/article/details/119153540

8.3 作业

将向量下标为偶数的分量累加
$\sum_{i \% 2 = 0} x_i$
```
double sum = 0;
for (int i = 1; i <= n; i++){
	if(i % 2 == 0){
		sum += x[i];
	}
}
```
各出一道累加、累乘、积分表达式的习题, 并给出标准答案
例1：求 $1+2!+3!+\dots+10!$ 的和
$\sum_{i=1}^{10}\prod_{j=1}^{i}x_j$
```
float n, s = 0, t = 1;
for(n = 1; n <= 10; n++) {
	t *= n;
	s += t;
}
printf("1+2!+3!...+10!=%e\n", s); // 4.037913e+006
```
例2： $\int_{0}^{2} x \mathrm{d}x$
```
double integration = 0;
double delta = 0.01;
for (double x = 0; x <= 2; x += delta){
	integration += x * delta;
}
printf("%f",integration); //1.990000
```
你使用过三重累加吗? 描述一下其应用
需要计算三维数组元素总和时使用, 同理 $n$ 维数组用到 $n$ 重累加
给一个常用的定积分, 将手算结果与程序结果对比
$\int_{0}^{\frac{\pi}{2}} \sin(x) \mathrm{d}x$
使用C语言程序结果：
```
#include<math.h>
#include<stdio.h>
#define PI acos(-1)
int main(){
	double integration = 0;
	double delta = 0.01;
	for (int x = 0; x <= PI/2; x += delta)
		integration += sin(x) * delta;
	printf("%f",integration); // 1.004195
	return 0;
}
```
手算结果：
$\int_{0}^{\frac{\pi}{2}} \sin(x) \mathrm{d}x= -\cos(x) \vert_0^{\frac{\pi}{2}}= 1$

9.3 作业

自己写一个小例子 $(n = 3, m = 1)$ 来验证最小二乘法
$\mathbf{X}= \begin{bmatrix} 1 & 2 \\ 1 & 1 \\ 1 & 1 \\ \end{bmatrix}, \mathbf{Y}= \begin{bmatrix} 1\\ 2\\ 1\\ \end{bmatrix}$
$\mathbf{w}$ 计算式子：
$\mathbf{w}=(\mathbf{X}^\mathbf{T}\mathbf{X})^{-1}\mathbf{X}^\mathbf{T}\mathbf{Y}$
即：
$\mathbf{w}= \left( \begin{bmatrix} 1 & 1 & 1\\ 2 & 1 & 1\\ \end{bmatrix} \times \begin{bmatrix} 1 & 2 \\ 1 & 1 \\ 1 & 1 \\ \end{bmatrix} \right)^{-1} \times \begin{bmatrix} 1 & 1 & 1\\ 2 & 1 & 1\\ \end{bmatrix} \times \begin{bmatrix} 1\\ 2\\ 1\\ \end{bmatrix}$
最终结果：
$\mathbf{w}= \begin{bmatrix} 2\\ -0.5\\ \end{bmatrix}$
其中 $w_0=b=2$

写出关于 $\mathbf{w}$ 的推导过程

推导过程:
$\begin{aligned} \lVert \mathbf{X}\mathbf{w}-\mathbf{Y} \rVert_2^2&= (\mathbf{X}\mathbf{w}-\mathbf{Y})^{\mathbf{T}}(\mathbf{X}\mathbf{w}-\mathbf{Y}) \\&= (\mathbf{w}^{\mathbf{T}}\mathbf{X}^{\mathbf{T}}-\mathbf{Y}^{\mathbf{T}})(\mathbf{X}\mathbf{w}-\mathbf{Y}) \\&= \mathbf{w}^{\mathbf{T}}\mathbf{X}^{\mathbf{T}}\mathbf{X}\mathbf{w}-\mathbf{w}^{\mathbf{T}}\mathbf{X}^{\mathbf{T}}\mathbf{Y}-\mathbf{Y}^{\mathbf{T}}\mathbf{X}\mathbf{w}-\mathbf{Y}^{\mathbf{T}}\mathbf{Y} \end{aligned}$
令 $J(\mathbf{w})=\mathbf{w}^{\mathbf{T}}\mathbf{X}^{\mathbf{T}}\mathbf{X}\mathbf{w}-\mathbf{w}^{\mathbf{T}}\mathbf{X}^{\mathbf{T}}\mathbf{Y}-\mathbf{Y}^{\mathbf{T}}\mathbf{X}\mathbf{w}-\mathbf{Y}^{\mathbf{T}}\mathbf{Y}$ , 将该式关于 $\mathbf{w}$ 求导 (使用向量求导法则) 并令其为 0。
矩阵求导法则：
$\begin{aligned} \frac{d\mathbf{A}\mathbf{B}}{d\mathbf{B}}&=\mathbf{A}^{\mathbf{T}} \\ \frac{d\mathbf{A}^{\mathbf{T}}\mathbf{B}}{d\mathbf{A}}&=\mathbf{B} \\ \frac{d\mathbf{X}^{\mathbf{T}}\mathbf{A}\mathbf{X}}{d\mathbf{X}}&=2\mathbf{AX} \\ \end{aligned}$
所以：
$\begin{aligned} \frac{dJ(\mathbf{w})}{d\mathbf{w}}&=2\mathbf{X}^\mathbf{T}\mathbf{X}\mathbf{w}-\mathbf{X}^\mathbf{T}\mathbf{Y}-\mathbf{X}^\mathbf{T}\mathbf{Y}-0\\ &=2\mathbf{X}^\mathbf{T}\mathbf{X}\mathbf{w}-2\mathbf{X}^\mathbf{T}\mathbf{Y}\\ &=\mathbf{X}^\mathbf{T}\mathbf{X}\mathbf{w}-\mathbf{X}^\mathbf{T}\mathbf{Y} \end{aligned}$
令 $\frac{dJ(\mathbf{w})}{d\mathbf{w}}=0$ 得 $\mathbf{w}=(\mathbf{X}^\mathbf{T}\mathbf{X})^{-1}\mathbf{X}^\mathbf{T}\mathbf{Y}$

10.6 作业

自己推导一遍Logistic 回归, 并描述这个方法的特点 (不少于 5 条)
逻辑回归特点：

选择sigmoid 函数作为阶跃函数, 因为sigmoid函数满足在实数集上可导, 并且sigmoid函数能将数据转换为0到1之间数, 将数据归一化
利用极大似然估计求解优化问题, 使用连乘的方式考虑到每个条件概率
求解最大似然问题时, 通常两边取对数, 将连乘转化为连加, 降低计算难度
在对 $w$ 求导时, 由于 $w$ 作为一个向量, 求导后计算导数为0时需要求解一个方程组, 且无法获得解析式, 所以采用梯度下降的方式
统一 $y_i$ 的不同取值(0,1), 广义化优化目标
带参数的条件概率写法： $\vert \mathbf{x};\mathbf{w})$ , 在分号后面写上参数

推导过程：
1.sigmoid函数： $\vert \mathbf{x}; \mathbf{w}) = \frac{1}{1 + e^{-\mathbf{xw}}}$
2.优化目标： $P(y_i\vert \mathbf{x_i}; \mathbf{w}) =P(y_i=1\vert \mathbf{x_i}; \mathbf{w})^{y_i}(1-P(y_i=1\vert \mathbf{x_i}; \mathbf{w})^{1-y_i})$
3.将优化目标转化为极大似然： $\underset{\mathbf{w}}{\argmax} L(\mathbf{w})=\prod_{i=1}^nP(y_i \vert \mathbf{x_i};\mathbf{w})$ ，记损失函数为 $L(\mathbf{w})$
4.求解 $\mathbf{w}$ 偏导：
$\begin{aligned} \log L(\mathbf{w}) & = \sum_{i = 1}^n \log P(y_i \vert \mathbf{x}i; \mathbf{w}) \\ &= \sum_{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}i; \mathbf{w})) \\ &= \sum_{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}i; \mathbf{w})) \\ &= \sum_{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned}$
$\begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} &= \sum_{i = 1}^n y_i \mathbf{x}_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}} \mathbf{x}i \\ & = \sum_{i = 1}^n \left(y_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}}\right) \mathbf{x}_i\end{aligned}$
这里存在一个问题, 在对 $w$ 求导时, 由于 $w$ 作为一个向量, 求导后计算导数为0时需要求解一个方程组, 且无法获得解析式, 所以采用梯度下降的方式：
$\mathbf{w}^{t+1}=\mathbf{w}^t-\alpha\frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}$
这里 $\alpha$ 为学习率, 需要合适设置, 通常取0.001, 学习率不宜过大也不宜过小, 学习率偏大可能会导致 $\mathbf{w}$ 值震荡越来越偏离最优值, 学习率偏小又会造成收敛幅度过小