Fourth and fifth week of machine learning on Coursera

最新推荐文章于 2024-10-10 15:38:42 发布

腾原

最新推荐文章于 2024-10-10 15:38:42 发布

阅读量199

点赞数

分类专栏： coursera机器学习笔记文章标签：神经网络

本文链接：https://blog.csdn.net/tengyuan93/article/details/78120853

版权

coursera机器学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Fourth and fifth week of machine learning on Coursera

@(Coursera)

第四周和第五周主要都是在讲解神经网络的知识点，理解有限，自己的内容主要是些零碎的知识点，系统性的讲解可参考我贴出的博客。
神经网络（Representation）
神经网络（learning）
反向传播算法解析

知识点：

$\alpha_i^{(j)}$ 表示第 $j$ 层第 $i$ 个神经元的激励函数，一般为 $sigmoid(input)$ ；
$\Theta^{(j)}$ 表示第 $j$ 层第 $j+1$ 层的权重系数矩阵；

第 j 层 含 有 s j 个 神 经 元 ， j + 1 层 含 有 s j + 1 个 神 经 元 ， Θ (j) 的 维 度 为 s j + 1 \times (s j + 1)

$第j层含有s_j个神经元，j+1层含有s_{j+1}个神经元，\Theta^{(j)}的维度为s_{j+1}\times(s_j+1)$
相当于第j层多出了一个输入单元

x0 $x_0$ ，导致计算下一层各unit值时候，多乘以

x0 $x_0$ 作用的情况，矩阵看起来多出了一列。如下图所示：
这里写图片描述

反向传播算法&损失函数

$L:$ 神经网络中的总层数；
$s_l:$ 第 $l$ 层单元的数量；
$K:$ 输出单元的数量；

损失函数沿用逻辑回归的形式：

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(h_\theta(x^(i)))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_j^2$
神经网络的损失函数为:

J (Θ) = - 1 m \sum i = 1 m \sum k = 1 K [y (i) k l o g ((h Θ (x (i))) k) + (1 - y (i) k) l o n g (1 - (h Θ (x (i))) k)] + λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (Θ (l) j, i) 2

$J(\Theta)=-\frac{1}{m}\sum_{i=1}^{m}\sum_{k=1}^{K}[y_k^{(i)}log((h_\Theta(x^{(i)}))_k)+(1-y_k^{(i)})long(1-(h_\Theta(x^{(i)}))_k)]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{sl}\sum_{j=1}^{sl+1}(\Theta_{j,i}^{(l)})^2$
这里写图片描述

对于反向传播算法的梯度计算：
定义

δ(l)j第l层第j个节点的误差： $\delta_j^{(l)}第l层第j个节点的误差：$
例如：

对于第4层的每个输出单元：δ(4)j=α(4)j−yj $对于第4层的每个输出单元：\delta_j^{(4)}=\alpha_j^{(4)}-y_j$
上图可知，第4层含有4个输出单元，所以第4层输出单元的误差可以写为向量形式：

δ (4) = α (4) - y

$\delta^{(4)}=\alpha^{(4)}-y$
误差反向传播：

δ (3) = (Θ (3)) T δ (4) . * g' (z (3))

$\delta^{(3)}=(\Theta^{(3)})^T\delta^{(4)}.*g^{'}(z^{(3)})$

δ (2) = (Θ (2)) T δ (3) . * g' (z (2))

$\delta^{(2)}=(\Theta^{(2)})^T\delta^{(3)}.*g^{'}(z^{(2)})$
注：上面误差逆传播推导我没有推导出来，视频中也是直接给出的。
sigmoid()导数有个性质是：

f' (x) = f (x) (1 - f (x)) ， 左 边 是 f (x) 的 导 数

$f^{'}(x)=f(x)(1-f(x))，左边是f(x)的导数$
所以上述的

g'' (z (3)) = α (3) . * (1 - α (3))

$g^{''}(z^{(3)})=\alpha^{(3)}.*(1-\alpha^{(3)})$

g'' (z (2)) = α (2) . * (1 - α (2))

$g^{''}(z^{(2)})=\alpha^{(2)}.*(1-\alpha^{(2)})$

这里写图片描述
上图误差反向传播的时候， $\delta_2^{(2)}只会来自于\delta_1^{(3)}和\delta_2^{(3)}$

矩阵和向量转换：

$矩阵A，B，C，size(A)=10*11,size(B)=10*11,size(C)=1*11,thetaVec=[A(:);B(:);C(:)];此时size(thetaVec)=231*1;$
如果想从 $thetaVec得到A，B，C$ 可以使用
$reshape(thetaVec(1:110),10,11);这个命令恢复矩阵A$

梯度检查

反向传播算法计算梯度值非常快，但是有的时候容易出错误，所以需要进行梯度检查。

\partial \partial Θ j J (Θ) \approx J ( Θ 1 , . . . , + Θ j + ϵ , . . . , Θ n ) - J ( Θ 1 , . . . , Θ j - ϵ , . . . , Θ n ) 2 ϵ

$\frac{\partial}{\partial\Theta_j}J(\Theta)\approx\frac{J(\Theta_1,...,+\Theta_j+\epsilon,...,\Theta_n)-J(\Theta_1,...,\Theta_j-\epsilon,...,\Theta_n)}{2\epsilon}$
Matlab程序：

epsilon = 1e-4;
for i = 1:n,
  thetaPlus = theta;
  thetaPlus(i) += epsilon;
  thetaMinus = theta;
  thetaMinus(i) -= epsilon;
  gradApprox(i) = (J(thetaPlus) - J(thetaMinus))/(2*epsilon)
end;

将求出的梯度值 $gradApprox$ 和反向传播求出的 $deltaVector$ 相比较，如果近似相等，证明反向传播算法计算是对的，由于上述校验计算梯度非常，验证正确后即可从程序段中去除验证部分。