《深度学习从0开始-BASE》

VictoryZhou_

已于 2023-01-28 11:28:50 修改

阅读量342

点赞数 1

分类专栏： Python 文章标签：深度学习人工智能 python

于 2023-01-10 17:55:32 首次发布

本文链接：https://blog.csdn.net/VictoryZhou_/article/details/128488955

版权

Python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.感知机

给定输入x, 权重w, 和偏移 b, 感知机输出：
$\sigma(<w,x> + b)$ (<w,x> 表示向量w和x做内积）
$\sigma(x)=\left\{ \begin{matrix} 1 & if x>0 \\ -1 & otherwise \end{matrix} \right.$
（是个二分类问题）

训练感知机

initialize w=0 and b = 0
repeat #每次拿1个sample来优化
if $y_i[<w,x_i> + b] \leqslant 0$ then
$\leftarrow w + y_ix_i$ and $\leftarrow b + y_i$
end if
until all classified correctly
等价于使用批量大小为1的梯度下降，并使用如下的损失函数：
$l (y, x, w) = ma x (0, - y < w, x >)$
感知机不能拟合XOR函数，它只能产生线性分割面导致AI的第一次寒冬

2. 多层感知机:最简单的深度网络

单隐藏层-单分类
输入 $\in R^n$
隐藏层 $W_1 \in R^{m \times n}$ , $b_1 \in R^m$
输出层 $w_2 \in R^m, b_2 \in R$
$\sigma(W_1x + b_1)$ # h是向量
$o = w_2^Th + b_2$ #o是标量
$\sigma$ 是按元素的激活函数 #激活函数必须是非线性的，否则再多层也是线性模型
常用激活函数：sigmoid[0,1],
Tanh, ReLU(x)=max(x,0)
$y_1, y_2, ...y_k = softmax(o_1,o_2,...,o_k)$ , 把所有o拉到[0,1]使得加起来=1

-多分类
输入 $\in R^n$
隐藏层 $W_1 \in R^{m \times n}, b_1 \in R^m$
输出层 $W_2 \in R^{m \times k}, b_2 \in R^k$
$\sigma(W_1x + b_1)$ $o = W_2^Th + b_2$
$y = so f t ma x (o)$ # h、o、y都是向量
多隐藏层
$h_1 = \sigma(W_1x + b_1)$
$h_2 = \sigma(W_2h_1 + b_2)$
$h_3 = \sigma(W_3h_2 + b_3)$
$o = W_4h_3 + b_4$ #o是向量
超参数：隐藏层数、每层隐藏层的大小

总结：
多层感知机使用隐藏层和激活函数来得到非线性模型
常用激活函数是Sigmoid, Tanh, ReLU
使用Softmax 来处理多类分类（包含于nn.crossEntropyLoss中）
超参数：隐藏层层数和层大小
实战代码：D:\MLProjects\0102MLP
#打开visdom: 在【Pytorch】环境下 python -m visdom.server

3.模型选择、欠拟合和过拟合

1）解决训练数据稀缺的方法：
K折交叉验证：原始训练数据被分成K个不重叠的子集。然后进行K次模型训练和验证，每次在K - 1 个子集上进行训练，并在剩余的子集上进行验证。最后，通过对K次实验的结果取平局来估计训练和验证误差。
2）欠拟合和过拟合

训练误差和验证误差都很严重，但它们之间仅有一点差距→欠拟合：可以用更复杂的模型减低训练误差
训练误差明显低于验证误差时 →过拟合：通常更关心验证误差，而不是训练误差和验证误差之间的差距

多项式回归，代码见D:\MLProjects\0104polynomial regression

a.权重衰减=L2正则化

线性函数 $f(x) =w^Tx$ , w 和 x均为向量
线性回归损失：
$\frac{1}{n} \sum_{i=1}^{n}\frac{1}{2}(w^Tx^{(i)} + b - y^{(i)})^2$
（w, b)是权重和偏置参数

限制||w||的大小：
||w|| = ||w||_2(L2范数）， $\lambda > 0$
$\frac{ \lambda}{2}||w||^2$
L2正则化回归的小批量随机梯度下降更新如下式：
$\leftarrow (1 - \eta \lambda)w - \frac{\eta}{|B|}\sum_{i \in B}x^{(i)}(w^Tx^{(i)} + b - y^{(i)})$

较小的 $\lambda$ 对应于较小约束的w, 而较大的 $\lambda$ 对w的约束更大
权重衰减代码见D:\MLProjects\0106WeightDecay

b.暂退法（Dropout)

$\left\{\begin{matrix} 0 & 概率为p \\ \frac{h}{1-p} & 其他情况 \end{matrix}\right.$
$E [h^{'}] = h$
Dropout 代码见D:\MLProjects\0107Dropout

4.前向传播、反向传播和计算图

1）前向传播（forward propagation)

前向传播：指的是按顺序（从输入层到输出层）计算和存储神经网络中每层的结果。
单隐藏层的MLP：
(例如Fashion-mnist上的MLP）
假设 $\in R^d$ , 并且隐藏层不包括偏置项；

中间变量： $z = W^{(1)}x$ , 其中 $W^{(1)} \in R^{h \times d}$ 是隐藏层的权重参数。 $\in R^h$

$\phi(z)$ ；

$o = W^{(2)}h$ , $W^{(2)} \in R^{q \times h}, o \in R^q$ ；

假设损失函数为l, 样本标签为y,计算单个数据样本的损失项：

$L = l (o, y)$

根据 $L_2$ 正则化的定义，给定超参数 $\lambda$ , 正则化项为：

$\frac{\lambda}{2}(||W^{(1)}||_F^2 + ||W^{(2)}||_F^2)$
其中矩阵的Frobenius范数是将矩阵展平为向量后应用 $L_2$ 范数。

模型在给定数据样本上的正则化损失为：

$J = L + s$
$J$ 称为目标函数
前向传播计算图

2）反向传播（backward propagation)

链式法则：
Y = f (X), Z = g(Y)

$\frac{\partial Z}{\partial X} = prod(\frac{\partial Z}{\partial Y},\frac{\partial Y}{\partial X})$
prod运算符:执行必要的操作（如换位和交换位置）后将其参数相乘。

目的是计算 $\partial J / \partial W^{(1)}$ 和 $\partial J / \partial W^{(2)}$

计算目标函数J = L + s相对于损失项L和正则项s的梯度

$\frac{\partial J}{\partial L}=1,\frac{\partial J}{\partial s}=1$

根据链式法则计算J关于输出层变量o的梯度：
$\frac{\partial J}{\partial o} = prod(\frac{\partial J}{\partial L},\frac{\partial L}{\partial o}) = \frac{\partial L}{\partial o} \in R^q$
计算正则项相对于两个参数的梯度：

$\frac{\partial s}{\partial W^{(1)}} = \lambda W^{(1)}$
$\frac{\partial s}{\partial W^{(2)}} = \lambda W^{(2)}$

现在可以计算最接近输出层的模型参数的梯度 $\frac{\partial J}{\partial W^{(2)}} \in R^{q \times h}$ .使用链式法则得出：
$\frac{\partial J}{\partial W^{(2)}}=prod(\frac{\partial J}{\partial o}, \frac{\partial o}{\partial W^{(2)}}) + prod(\frac{\partial J}{\partial s}, \frac{\partial s}{\partial W^{(2)}}) = \frac{\partial J}{\partial o}h^T + \lambda W^{(2)}$
为了获得关于 $W^{(1)}$ 的梯度，我们需要继续沿着输出层到隐藏层反向传播。关于隐藏层输出的梯度 $\frac{\partial J}{\partial h} \in R^h$ 由下式给出：
$\frac{\partial J}{\partial h} = prod(\frac{\partial J}{\partial o}, \frac{\partial o}{\partial h}) = {W^{(2)}}^T\frac{\partial J}{\partial o}$
由于激活函数 $\phi$ 是按元素计算的，计算中间变量 $z$ 的梯度 $\partial J/ \partial z \in R^h$ 需要使用按元素乘法运算符，用 $\bigodot$ 表示：
$\frac{\partial J}{\partial z} = prod(\frac{\partial J}{\partial h}, \frac{\partial h}{\partial z}) = \frac{\partial J}{\partial h}\bigodot\phi'(z)$
最后得到最接近输入层的模型参数的梯度 $\partial J / \partial W^{(1)} \in R^{h \times d}$ ，根据链式法则，得：
$\frac{\partial J}{\partial W^{(1)}} = prod(\frac{\partial J}{\partial z},\frac{\partial z}{\partial W^{(1)}}) +prod(\frac{\partial J}{\partial s},\frac{\partial s}{\partial W^{(1)}}) = \frac{\partial J}{\partial z}x^T + \lambda W^{(1)}$

梯度消失和梯度爆炸
$h^{(l)} = f_l(h^{(l-1)})$ ,因此 $f_L \circ...\circ f_1(x)$ .
o关于任何一组参数 $W^{(l)}$ 的梯度写为下式：
$\partial _{W^{(l)}}o = \partial_{h^{(L-1)}}h^{(L)}...\partial_{h^{(l)}}h^{(l+1)}\partial_{w^{(l)}}h^{(l)}$
换言之，该梯度是L-1个矩阵 $M^{(L)}... M^{(l + 1)}$ 与梯度向量 $v^{(l)}$ 的乘积
代码实现见D:\MLProjects\0109gradient vanish,explode

5.环境和分布偏移

通过将基于模型的决策引入环境，我们可能会破坏模型。
条件概率：
$\frac{P(AB)}{P(B)}$
“A在B发生的条件下”发生的概率 $P (A ∣ B)$
A,B同时发生的概率，联合概率 $P(AB)=P(A,B)=P(A\cap B)$

1)协变量偏移
假设：虽然输入的分布可能随时间而改变，但标签函数（条件分布P(y|x))没有改变，称之为协变量偏移（covariate shift)
2)标签偏移（label shift)
假设标签边缘概率P(y)可以改变，但类别条件分布P(x|y)在不同的领域之间保持不变。
3）概念偏移（concept shift)

分布偏移纠正:

经验风险与实际风险

训练数据 ${(x_1,y_1), ...,(x_n, y_n)\}$ ,在每一个小批量之后更新模型f的参数（不考虑正则化）：

最小化
$\frac{1}{n}\sum_{i=1}^nl(f(x_i), y_i) \tag{经验风险}$

经验风险是为了近似真实风险
整个训练数据上的平均损失，即从其真实分布p(x,y)中抽取的所有数据的总体损失的期望值：
$E_{p(x,y)}[l(f(x),y)] = \iint l(f(x),y)p(x,y) dxdy \tag{真实风险}$

协变量偏移纠正

$\frac{1}{n}\sum_{i=1}^n\beta_il(f(x_i),y_i) \tag{[1]}$
完整协变量偏移纠正算法：
假设我们有一个训练集 ${(x_i,y_1),...,(x_n,y_n)\}$ 和一个未标记的测试集
${u_1, ...,u_m\}$ 。对于协变量偏移，我们假设1<= i <=n的 $x_i$ 来自某个源分布， $u_i$ 来自目标分布。
1.生成一个二元分类训练集： ${(x_1, -1), ..., (x_n,-1), (u_1,1),...,( u_m, 1)\}$
2.用对数几率回归训练二元分类器得到函数h。
3.使用 $\beta_i = exp(h(x_i))$ 或更好的 $\beta_i =min(exp(h(x_i)),c)$ (c为常量）对训练数据进行加权。
4.使用权重 $\beta_i$ 进行([1])中 ${(x_i,y_1),...,(x_n,y_n)\}$ 的训练。

标签偏移纠正

假设处理k个类别的分类任务。q,p分别是源分布（训练时的分布）和目标分布（测试时的分布）。假设标签的分布随时间变化: $\neq p(y)$ , 但类别条件分布保持不变 $q (x ∣ y) = p (x ∣ y)$ 。
如果源分布q(y)是“错误的”，可以根据真实风险恒等式进行更正：
$\iint l(f(x),y)p(x|y)p(y)dxdy = \iint l(f(x),y)q(x|y)q(y)\frac{p(y)}{q(y)}dxdy$
重要性权重将对于于标签似然比率：
$\beta_i = \frac{p(y_i)}{q(y_i)}$
1.采用现成发分类器（基于训练数据训练的）并使用验证集（也来自训练分布）计算其混淆矩阵C：k $\times$ k 矩阵，列对于于标签类别，行对于于模型的预测类别，每个单元格的值 $c_{ij}$ 是验证集中，真实标签为j,而模型预测为i的样本数量所占的比例。
2.所有模型在测试时的预测取平均数，得到平均模型输出 $\mu (\hat y) \in R^k$
3. $C^{-1}\mu (\hat y)$
4.观测源数据上的标签，很容易计算估计分布q(y)。
5.计算权重 $\beta_i$ ,并将其代入([1])中。

概念偏移纠正
eg.由于环境的磨损，交通摄像头的箭头会逐渐退化，影响摄像头的图像质量；
新闻内容逐渐变化（即新新闻的出现）。
使用新数据更新现有的网络权重，而不是从头开始训练。

学习问题的分类：
1）批量学习：batch learning
2)在线学习 online learning：
$model: f_t →data: x_t →estimate: f_t(x_t) →observation: y_t$ → $loss ：l(y_t,f_t(x_t))$ → $model: f_{t+1}$
在这个循环中，给定新的观测结果，我们会不断改进我们的模型。
3）老虎机bandits
4)控制
5）强化学习 reinforcement learning

Kaggle 房价预测：代码见D:\MLProjects\0116HousePricePrediction
K折交叉验证与超参数搜索
为什么K折交叉验证：1.数据量小，单一的把数据都用来训练模型，容易导致过拟合；小数据集的交叉验证，建议选择较大的k值。
2. 降低模型方差，从而提高模型的泛化能力。
超参数选择：1.Grid SearchCV(网格搜索）
GridSearch + CV: 网格搜索和交叉验证
网格搜索：搜索的是参数。即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数。
Grid Search: 一种调参手段；穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像在数组里找打最大值。缺点：耗时！
网格搜索适合适用于三、四个（或更少）的超参数
2. RandomizedSearchCV(随机搜索）
随机在超参数空间中搜索几十几百个点，其中就有可能有比较小的值。