机器学习入门-神经网络梯度下降

最新推荐文章于 2022-06-15 01:53:28 发布

永远鲜红の幼月

最新推荐文章于 2022-06-15 01:53:28 发布

阅读量101

点赞数

分类专栏：机器学习入门科普文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/qq_40482358/article/details/117462964

版权

机器学习入门科普专栏收录该内容

11 篇文章 0 订阅

订阅专栏

神经网络-梯度下降

对于一个神经网络，我们通过传入参数，经过中间层的θ切换，最后输出hθ结果。
下面是一个用makedown画的简易神经网络，感觉不是很好康，不过又懒的画图了，就这样吧。

正向传播

正向传播表示从输入x开始，根据中间层的θ来进行输出值。

下面给出一个四层神经网络的正向传递的步骤。

其中x为训练集，θ为层级之间的关系，z为中间变量，a为中间隐藏层作为下一层的输入集合

这里的用第二层的θ为参考

$\theta^{(2)}= \begin{bmatrix} &\theta_{10}^{(2)} &\theta_{11}^{(2)} &\theta_{12}^{(2)} \\ &\theta_{20}^{(2)} &\theta_{21}^{(2)} &\theta_{22}^{(2)} \end{bmatrix}$
可以看出这是一个2*3的矩阵，用到下面，

$\begin{aligned} & a^{(1)}=x \ \ \ 读入第一层训练集\\ & 开始进行第二层计算\\ & z^{(2)}=\theta^{(1)}a^{(1)}\ \ \ 经过\theta计算获得中间参数z\\ & a^{(2)}=g(z^{(2)})\ \ (add\ a_0^{(2)})\ \ \ 使用g(z)函数将其变为隐藏层的集合a，并且加入a_0 \\ & 第三层计算\\ & z^{(3)}=\theta^{(2)}a^{(2)}\\ & a^{(3)}=g(z^{(3)})\ \ (add\ a_0^{(3)})\\ & 第四层计算\\ & z^{(4)}=\theta^{(3)}a^{(3)}\\ & a^{(4)}=g(z^{(4)})\ \ (add\ a_0^{(3)}) \\ \end{aligned}$

最后根据最后一层的a集合来确定输出结果。

代价函数

因此，根据不同的θ得出的结果集可能不同，其代价函数是关于θ的函数。

首先是根据逻辑回归,因为多层神经网络的期望输出结果为只有一个1的其他全0的向量组，因此使用交叉熵来进行代价函数的优化
$J(\theta)=-\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}log\ h_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_j^2$
这里使用神经网络多层回归。（其实就是把多层的代价函数再加起来）
$J(\theta)=-\frac{1}{m}[\sum_{i=1}^{m}\sum_{k=1}^{K}y_k^{(i)}log(h_\theta(x^{(i)}))_k+(1-y^{(i)}_k)log(1-h_\theta(x^{(i)}))_k]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_{l+1}}\theta_j^2$
我们要求得最小的代价函数。

梯度下降

使用梯度下降需要，需要知道代价函数J(θ)的对于各个分量的偏导数。
$\frac{\partial}{\partial\theta_{ij}^{(l)}}J(\theta)$
我们需要求出其偏导，可以采用反向传播算法。

直接求取较为麻烦，所以我们考虑使用反向传播算法来优化计算速度。

反向传播

相对于正向传播，反向传播从结果出发，求取每一层的误差项，来获得其导数。

其求取过程参考神经网络反向传播算法 - 知乎 (zhihu.com)

这里的θ转置后，其形态参考上面的θ所示
$\theta^{(2)T}= \begin{bmatrix} &\theta_{10}^{(2)} &\theta_{20}^{(2)}\\ &\theta_{11}^{(2)} &\theta_{21}^{(2)}\\ &\theta_{12}^{(2)} &\theta_{22}^{(2)} \end{bmatrix}$

$\begin{aligned} & \delta^{(4)}=a^{(4)}-y^{(i)}\ \ \ 根据输出和训练集，获取误差集合\\ & 这里使用同样的\theta，只是因为连线不同，所以要注意\theta的参数这里转置以下就好了，可以参考上面的\theta\\得出第三层\\ & \delta^{(3)}=\theta^{(3)T}\delta^{(4)}.*g'(z^{(3)})\\ & 第二层\\ & \delta^{(2)}=\theta^{(2)T}\delta^{(3)}.*g'(z^{(2)}) \end{aligned}$

$这里的g'(z^{(3)})其实就是激活项a的对中间项z的偏导，可以证明\\ g'(z^{(3)})=a^{(3)}.*(1-a^{(3)})\\ 根据以上条件，可以在不严格的条件下证明出代价函数对于\theta的偏导数\\ \frac{\partial}{\partial\theta_{ij}^{(l)}}J(\theta)=a_j^{(l)}\delta_i^{(l+1)}这里忽略了\lambda$

这里的对δ进行解释
$\delta^{(l)}_j是第a_j^{(l)}个激活项中的误差\\ \delta^{(l)}_j是第代价函数关于中间项的偏导数即\\ \delta^{(l)}_j=\frac{\partial }{\partial z_j^{(l)}}Cost(i)$
衡量，为了影响中间值，我们要改变的神经网络中的权重的程度，导致影响神经网络中的输出h(x)，并影响所有的代价函数。

实现过程

$\begin{aligned} & 训练集\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})\}\\ & 设置\Delta_{ij}^{(l)}=0\ (for\ all\ l,i,j)\\ & 遍历训练集For\ i=1\ to\ m\\ & \ \ \ \ 设置 a^{(1)}=x^{(i)}\\ & \ \ \ \ 正向传播计算后面的a^{(l)}\\ & \ \ \ \ 使用y来计算最后一层的误差\delta^{(L)}=a^{(L)}-y^{(L)}\\ & \ \ \ \ 反向传播算法计算\delta^{(L-1)},...,\delta^{(2)}\\ & \ \ \ \ 通过\delta和a计算 \Delta_{ij}^{(l)}:=\Delta_{ij}^{(l)}+a_j^{(l)}\delta_i^{(2)}\\ & D_{ij}^{(l)}:=\frac{1}{m}\Delta_{ij}^{(l)}+\lambda\theta_{ij}^{(l)}\ if\ j\neq0\\ & D_{ij}^{(l)}:=\frac{1}{m}\Delta_{ij}^{(l)} if\ j=0\\ \end{aligned}$

$这里设置\frac{\partial}{\partial\theta_{ij}^{(l)}}J(\theta)=D_{ij}^{(l)}$

高级函数优化

使用octave的内置函数来运行。

执行模板

$\begin{aligned} & function [jVal,gradient]=costFunction(theta) \ \ \ \ 首先确定代价函数\\ & ... \\ & optTheta = fminunc(@costFunction,initialTheta,options)\ \ \ \ 根据代价函数，初始梯度，优化标记\\ \end{aligned}$

神经网络有4层，三组θ和三组偏导数
$\begin{aligned} & Neural\ Network(L=4):\\ & \ \ \ \ \theta^{(1)},\theta^{(2)},\theta^{(3)}\ -matrices(Theta1,Theta2,Theta3)\\ & \ \ \ \ D^{(1)},D^{(2)},D^{(3)}\ -matrices(D1,D2,D3)\\ & "Unroll"into\ vectors \end{aligned}$

thetaVec = [ Theta1(:);Theta2(:);Theta3(:) ]; %矩阵θ合并
Dvec = [D1(:);D2(:);D3(:)]; %导数矩阵合并

Theta1 = reshape(thetaVec(1:110),10,11); %将矩阵前110项拆开，变为一个10*11的矩阵
Theta2 = reshape(thetaVec(111:220),10,11);
Theta3 = reshape(thetaVec(221:231),1,11);

学习算法

$\begin{aligned} & 初始化参数\theta^{(1)},\theta^{(2)},\theta^{(3)}.\\ & 展开initialTheta传给函数fminunc(@costFunction,initialTheta,options)\\ \\ & function\ [jVal,graientVec]=costFunction(thetaVec)函数执行以下功能\\ & \ \ \ \ 从thetaVec向量组中获取到\ \theta^{(1)},\theta^{(2)},\theta^{(3)}(使用reshape函数)\\ & \ \ \ \ 使用反向传播算法计算D^{(1)},D^{(2)},D^{(3)},J(\Theta).\\ & \ \ \ \ 然后展开D^{(1)},D^{(2)},D^{(3)}获得getdientVec\\ \end{aligned}$

梯度检测

上面我们使用了反向传播算法来计算了代价函数**J(θ)**对于θ的偏导数。

为了检验我们是否求得了正确的导数，我们使用另一种方法（拉格朗日中值定理）来求导数来验证一下。

公式如下:
$\frac{\partial}{\partial\theta}J(\theta)=\lim_{\varepsilon\to0}\frac{J(\theta+\varepsilon)-J(\theta-\varepsilon)}{2\varepsilon}$
在octave中编写代码：

gradApprox =(J(theta + EPSILON)-J(theta - EPSILON))/(2*EPSLION)

计算步骤

$\begin{aligned} & \theta^{(1)},\theta^{(2)},\theta^{(3)}展开到\theta中\\ & \theta = [\theta_1,\theta_2,...,\theta_n]\\ & \frac{\partial}{\partial\theta_1}J(\theta)=\frac{J(\theta_1+\epsilon,\theta_2,...,\theta_n)-J(\theta_1-\epsilon,\theta_2,...,\theta_n)}{2\epsilon}\\ & \frac{\partial}{\partial\theta_2}J(\theta)=\frac{J(\theta_1,\theta_2+\epsilon,...,\theta_n)-J(\theta_1,\theta_2-\epsilon,...,\theta_n)}{2\epsilon}\\ .\\ .\\ .\\ & \frac{\partial}{\partial\theta_n}J(\theta)=\frac{J(\theta_1,\theta_2,...,\theta_n+\epsilon)-J(\theta_1,\theta_2,...,\theta_n-\epsilon)}{2\epsilon} \end{aligned}$

在octave中编写代码：

for i=1:n,
	thetaPlus=theta;
	thetaPlus(i)=thetaPlus(i)+EPSILON;
	thetaMinus=theta;
	thetaMinus(i)=thetaMinus(i)-EPSILON;
	gradApprox(i)=(J(thetaPlus)-J(thetaMinus))/(2*EPSILON);
end;
计算求得的gradApprox集合即使用拉格朗日求导得出的导数集合。

比较验证

在梯度检测中求得的gradApprox与反向传播计算的DVec比较，相同即证明反向传播算法没有问题。

补充随机化

在初始化θ的时候，如果将其默认值设为0，可能会出现同步更新导致向量更新相等的情况。

例如
$当\theta_{ij}^{(l)}=0的时候\\ 由于a_1^{(l)}=\theta^{(l-1)}a^{(l-1)}\\ a_2^{(l)}=\theta^{(l-1)}a^{(l-1)}\\ 这里会导致a_1^{(l)}=a_2^{(l)} \ \ \ ==>\delta_1^{(l)}=\delta_2^{(l)}\\ 进而发现\frac{\partial}{\partial\theta_{01}^{(l)}}J(\theta)=\frac{\partial}{\partial\theta_{02}^{(l)}}J(\theta)$
因此我们需要一个随机化，来将默认梯度随机一下。

将θ的值取在[-ε，ε]之间

代码中表示

Theta1 = rand(10,11) *(2*INIT EPSILON)-INIT_EPSILON; % 10*11的矩阵，（0，1）之间的随机实数
Theta2 = rand(1,11)*(2*INIT_EPSILON)-INIT_EPSILON;

参考资料

B站吴恩达机器学习相关课程：https://www.bilibili.com/video/BV164411b7dx
神经网络反向传播算法 - 知乎：https://zhuanlan.zhihu.com/p/25609953

永远鲜红の幼月

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门-神经网络梯度下降

神经网络-梯度下降对于一个神经网络，我们通过传入参数，经过中间层的θ切换，最后输出hθ结果。下面是一个用makedown画的简易神经网络，感觉不是很好康，不过又懒的画图了，就这样吧。#mermaid-svg-65edGf52Det2pw3j .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-65edGf52D
复制链接

扫一扫

专栏目录