深度学习与PyTorch笔记12

最新推荐文章于 2024-05-22 08:41:15 发布

niuniu990

最新推荐文章于 2024-05-22 08:41:15 发布

阅读量248

点赞数

文章标签： python pytorch

本文链接：https://blog.csdn.net/niuniu990/article/details/88044358

版权

随机梯度下降

什么是梯度

导数（derivate）：反映y随x变化的趋势。标量 $d$
偏微分（partial derivate）：一个函数对其自变量的变化的描述程度。标量 $\partial$ 。导数的特殊情况。
$z=y^{2}-x^{2}$
$\frac{\partial z}{\partial x }=-2x\qquad\frac{\partial z}{\partial y }=2y$
梯度（gradient）：所有的偏微分组成的一个向量。 $\nabla f=(\frac{\partial f}{\partial x_{1}};\frac{\partial f}{\partial x_{2}};...;\frac{\partial f}{\partial x_{n}})$
1、梯度的长度从某种反面反映了函数变化的趋势，增长的速率。
2、梯度的方向代表函数增长的方向。

How to search for minima?

$\theta_{t+1}=\theta_{t}-\alpha_{t}\nabla f(\theta_{t})$
$\theta_{t}$ 函数当前值， $\nabla f(\theta_{t})$ 当前值梯度， $\alpha_{t}$ 一个比较小的learning rate。
举个栗子：
function:
$J(\theta_{1},\theta_{2})=\theta^{2}_{1}+\theta^{2}_{2}$
objective:
$\min_{\theta_{1},\theta_{2}}J(\theta_{1},\theta_{2})$
update rules:
$\theta^{'}_{1}=\theta_{1}-\alpha\frac{d}{d\theta_{1}}J(\theta_{1},\theta_{2})$
$\theta^{'}_{2}=\theta_{2}-\alpha\frac{d}{d\theta_{2}}J(\theta_{1},\theta_{2})$
derivatives:
$\frac{d}{d\theta_{1}}J(\theta_{1},\theta_{2})=\frac{d}{d\theta_{1}}\theta^{2}_{1}+\frac{d}{d\theta_{1}}\theta^{2}_{2}=2\theta_{1}$
$\frac{d}{d\theta_{2}}J(\theta_{1},\theta_{2})=\frac{d}{d\theta_{2}}\theta^{2}_{1}+\frac{d}{d\theta_{2}}\theta^{2}_{2}=2\theta_{2}$
初始化 $\theta$ 值， $\alpha$ 可以取0.001代入公式求解。
影响搜索过程：
1、local minima：局部极小值
2、saddle point：鞍点
3、initialization status：初始状态，一定要初始化，学习何凯明的方法
4、learning rate：学习率，影响收敛速度和精度，一定要小
5、momentum ：动量，怎么逃离局部极小值，添加一个动量，可以理解为惯性，下降时惯性大可以把参数从局部极小值推出去。
6、etc.

常见函数梯度

一维函数

common functions	function	derivative
constant	$c$	$0$
line	$x$	$1$
	$a x$	$a$
square	$x^{2}$	$2 x$
square root	$\sqrt{x}$	$1/2)x^{-1/2}$
exponential	$e^{x}$	$e^{x}$
	$a^{x}$	$lna)a^{x}$
logarithms	$l n (x)$	$1 / x$
	$log_{a}x$	$1 / (x l n (a))$
trigonometry	$s i n (x)$	$c o s (x)$
	$c o s (x)$	$- s i n (x)$
	$t a n (x)$	$sec^{2}(x)$

激活函数与Loss的梯度

激活函数及其梯度

sigmoid/logistic

$f(x)=\sigma(x)=\frac{1}{1+e^{-x}}$
连续，光滑，压缩到（0，1），概率 $Prob\in[0,1]$ ，像素值 $RGB\in[0,1]$ 。
致命缺陷：在正无穷或负无穷处， $\sigma$ 的导数趋近于0，参数长时间得不到更新，出现梯度离散现象。
求导：
$\frac{d}{dx}\sigma(x)=\frac{d}{dx}(\frac{1}{1+e^{-x}})=\frac{e^{-x}}{(1+e^{-x})^{2}}=\frac{(1+e^{-x})-1}{(1+e^{-x})^{2}}=\frac{1+e^{-x}}{(1+e^{-x})^{2}}-(\frac{1}{1+e^{-x}})^{2}=\sigma(x)-\sigma(x)^{2}$
$\sigma^{'}=\sigma(1-\sigma)$
在这里插入图片描述

tanh

$f(x)=tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}=2sigmoid(2x)-1$
在RNN中用的比较多。范围[-1,1]。
$\frac{d}{dx}tanh(x)=\frac{(e^{x}+e^{-x})(e^{x}+e^{-x})-(e^{x}-e^{-x})(e^{x}-e^{-x})}{(e^{x}+e^{-x})^{2}}=1-\frac{(e^{x}-e^{-x})^{2}}{(e^{x}+e^{-x})^{2}}=1-tanh^{2}(x)$

在这里插入图片描述

rectified linear unit（ReLU）

目前使用最多，简单有效。
$f^{'}(x)= \begin{cases} \mathcal{0} &\text{for $x<0$}\\ \mathcal{x} &\text{for $x\ge0$} \end{cases}$
梯度不变，不容易出现梯度离散和梯度爆炸。在这里插入图片描述

LOSS及其梯度

两种常见LOSS。

mean squared error（MSE）

均方差。
$loss=\sum[y-(xw+b)]^{2}$
$L2norm=||y-(xw+b)||_{2}$ (各元素相减的差的平方和再开根号)
$loss=norm(y-(xw+b))^{2}$
求导：
$loss=\sum[y-f_{\theta}(x)]^{2}$
$\frac{\nabla loss}{\nabla \theta}=2\sum[y-f_{\theta}(x)]*\frac{\nabla f_{\theta}(x)}{\nabla \theta}$
使用pytorch自动求导：
1、torch.autograd.grad(loss.[w1,w2,…])
$p r e d = x * w + b$ ，使用F.mse_loss(pred,label)函数，得到 $y-pred)^{2}$ ，再使用torch.autograd.grad(pred,[w])函数进行求导，但是直接求导会出错，说w参数是不需要求导的，那是因为w初始化的时候没有设置为是需要导数信息的，此时需要对w参数进行更新，使用w.requires_grad_()#_此符号会对w进行更新，告诉pytorch这个w变量是需要grad信息的函数来更新，由于pytorch是做一步计算一步图的，所以还需要对图进行更新。w除了用此方法设置梯度信息外还可以用w=torch.tensor([Initial value],requiregrad=True)来设置。
在这里插入图片描述
2、loss.backward()
loss.backward()backword表示向后传播，在完成前面的建图后，pytorch会记录下来图的所有路径，在loss最后的节点调用backward时会自动的往后，从后往前传播，完成这条路径上所有的需要梯度的tensor的梯度的计算方法，计算出来的梯度不会再返回出来，它会自动的把所有的梯度信息附加在每一个tensor的成员变量.grad上。
在这里插入图片描述
w.norm返回的是tensor本身的一个L2norm，w.grad.norm()返回的是w梯度的norm。

cross entropy loss

用于分类，既可以用于二分类，也可以用于多分类，一般与softmax搭配使用。这里只介绍一下softmax函数。
softmax函数每一个值的区间满足[0,1]，所有值加起来的和等于1，非常适合多分类的情况。
$S(y_{i})=\frac{e^{y_{i}}}{\sum_{j}e^{y_{j}}}$
把大距离变得更大，小距离变得更小。
$p_{i}=\frac{e^{a_{i}}}{\sum^{N}_{k=1}e^{a_{k}}}$
when $i = j$ ，
$\frac{\partial p_{i}}{\partial a_{j} }=\frac{\partial\frac{e^{a_{i}}}{\sum^{N}_{k=1}e^{a_{k}}}}{\partial a_{j} }$
$f(x)=\frac{g(x)}{h(x)}$
$f^{'}(x)=\frac{g^{'}(x)h(x)-h^{'}(x)g(x)}{h(x)^{2}}$
$g(x)=e^{a_{i}}$
$h(x)=\sum^{N}_{k=1}e^{a_{k}}$
$\frac{\partial\frac{e^{a_{i}}}{\sum^{N}_{k=1}e^{a_{k}}}}{\partial a_{j} }=\frac{e^{a_{i}}\sum^{N}_{k=1}e^{a_{k}}-e^{a_{j}}e^{a_{i}}}{(\sum^{N}_{k=1}e^{a_{k}})^{2}}=\frac{e^{a_{i}}(\sum^{N}_{k=1}e^{a_{k}}-e^{a_{j}})}{(\sum^{N}_{k=1}e^{a_{k}})^{2}}=\frac{e^{a_{i}}}{\sum^{N}_{k=1}e^{a_{k}}}\times\frac{(\sum^{N}_{k=1}e^{a_{k}}-e^{a_{j}})}{\sum^{N}_{k=1}e^{a_{k}}}=p_{i}(1-p_{j})$
$\because i=j \therefore\frac{\partial p_{i}}{\partial a_{j} }=p_{j}(1-p_{j})$
当 $i$ 不等于 $j$ ，
$\frac{\partial\frac{e^{a_{i}}}{\sum^{N}_{k=1}e^{a_{k}}}}{\partial a_{j} }=\frac{0-e^{a_{j}}e^{a_{i}}}{(\sum^{N}_{k=1}e^{a_{k}})^{2}}=\frac{-e^{a_{j}}}{\sum^{N}_{k=1}e^{a_{k}}}\times\frac{e^{a_{i}}}{\sum^{N}_{k=1}e^{a_{k}}}=-p_{j}p_{i}$