Coursea-吴恩达-machine learning学习笔记（九）【week 5之Neural Networks: Learning】

最新推荐文章于 2020-02-10 15:41:58 发布

痞靥

最新推荐文章于 2020-02-10 15:41:58 发布

阅读量252

点赞数

分类专栏：机器学习文章标签：神经网络

本文链接：https://blog.csdn.net/u012347642/article/details/80559084

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

神经网络模型存在训练集：
$\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\}$
这里写图片描述
常用的符号表示：

$L$ ：神经网络的层数；
$S_l$ ：第 $l$ 层的单元数(不包含偏置单元)；
$K$ ：输出单元的数量。

神经网络有两种分类：

二元分类
$y=0$ 或 $1$ ，只有1个输出单元， $h_\Theta(x)$ 是一个实数，即 $S_L=1$
多类别分类( $K$ 个不同类)
$K$ 个输出单元， $h_\Theta(x)$ 是一个 $K$ 维向量，即 $S_L=K(K\geqslant 3)$

神经网络的代价函数：
$h_\Theta(x)\in R^{k}$ ， $(h_\Theta(x))_i$ 为第 $i$ 个输出

$J(\Theta)=-{1\over m}[\sum\limits_{i=1}^m\sum\limits_{k=1}^Ky^{(i)}_klog((h_\Theta(x^{(i)}))_k)+(1-y^{(i)}_k)log(1-(h_\Theta(x^{(i)}))_k)]+{\lambda\over 2m}\sum\limits_{l=1}^{L-1}\sum\limits_{i=1}^{S_l}\sum\limits_{j=1}^{S_{l+1}}(\Theta^{(l)}_{ji})^2$

当前 $\Theta$ 矩阵的列数等于当前层的单元数(包括偏置单元)，当前 $\Theta$ 矩阵的行数等于下一层的单元数(不包括偏置单元)。
上式中的双重求和将输出层的每个单元的逻辑回归代价相加，三重求和将整个网络中的所有 $\Theta$ 的平方相加

反向传播算法：让代价函数最小化的算法。
最小化 $J(\Theta)$ ，我们需要计算 $J(\Theta)$ ， $\frac{\partial}{\partial \Theta^{(l)}_{ij}}J(\Theta)$ 。

如上图所示神经网络，当只有1个训练样本 $(x,y)$ 时：
前向传播算法：
$\Rightarrow a^{(1)}=x$
$\Rightarrow Z^{(2)}=\Theta^{(1)}a^{(1)}$
$\Rightarrow a^{(2)}=g(Z^{(2)})\qquad (add\ a^{(2)}_0)$
$\Rightarrow Z^{(3)}=\Theta^{(2)}a^{(2)}$
$\Rightarrow a^{(3)}=g(Z^{(3)})\qquad (add\ a^{(3)}_0)$
$\Rightarrow Z^{(4)}=\Theta^{(3)}a^{(3)}$
$\Rightarrow a^{(4)}=h_\Theta(x)=g(Z^{(4)})$
反向传播算法：
$\delta^{(l)}_j$ ： $l$ 层第 $j$ 个单元的误差
以上图为例： $\Rightarrow \delta^{(4)}_j=a^{(4)}_j-y_j$
注：此处 $a^{(4)}_j$ 等同于 $(h_\Theta(x))_j$ ， $y_j$ 即输出向量的第 $j$ 个元素值
将上式向量化： $\Rightarrow \delta^{(4)}=a^{(4)}-y$
$\Rightarrow \delta^{(3)}=(\Theta^{(3)})^T\delta^{(4)}.*g'(Z^{(3)})\qquad g'(Z^{(3)})$ 为 $g(Z^{(3)})$ 的导数且 $g'(Z^{(3)})=a^{(3)}.*(1-a^{(3)})$
$\Rightarrow \delta^{(2)}=(\Theta^{(2)})^T\delta^{(3)}.*g'(Z^{(2)})\qquad g'(Z^{(2)})$ 为 $g(Z^{(2)})$ 的导数且 $g'(Z^{(2)})=a^{(2)}.*(1-a^{(2)})$
$\Rightarrow \frac{\partial }{\partial \Theta^{(l)}_{ij}}J(\Theta)=a^{(l)}_j\delta^{(l+1)}_i$ (忽略 $\lambda$ 正则化项)

当有 $m$ 个训练样本 $\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\}$ 时：
设 $\Delta^{(l)}_{ij}=0\quad (for\ all\ l,i,j)\qquad$ (注： $\Delta$ 是 $\delta$ 的大写)
$\Rightarrow for \quad i=1\quad to\quad m:$
$\Rightarrow \qquad$ 设 $a^{(1)}=x^{(i)}$
$\Rightarrow \qquad$ 利用前向传播算法计算 $a^{(l)}\quad (for\ l=2,3\cdots L)$
$\Rightarrow \qquad$ 用 $y^{(i)}$ ，计算 $\delta^{(L)}=a^{(L)}-y^{(i)}$
$\Rightarrow \qquad$ 计算 $\delta^{(L-1)},\delta^{(L-2)},\cdots,\delta^{(2)}\quad$ (注： $\delta^{(l)}=((\Theta^{(l)})^T\delta^{(l+1)}).*a^{(l)}.*(1-a^{(l)})$ )
$\Rightarrow \qquad \Delta^{(l)}_{ij}:=\Delta^{(l)}_{ij}+a^{(l)}_j\delta^{(l+1)}\quad$ 向量化该式： $\Delta^{(l)}:=\Delta^{(l)}+\delta^{(l+1)}(a^{(l)})^T$ (注：此处应去掉 $\delta^{(l+1)}_0$ )
$\Rightarrow \$ (跳出循环)
$\Rightarrow \ D^{(l)}_{ij}:={1 \over m}(\Delta^{(l)}_{ij}+\lambda\Theta^{(l)}_{ij})\qquad if\ j\neq0$
$\Rightarrow \ D^{(l)}_{ij}:={1 \over m}\Delta^{(l)}_{ij}\qquad if\ j=0$
$\Rightarrow \$ (注： $\Theta^{(l)}$ 的第1列不正则化，上式可以向量化去掉 $ij$ )
$\Rightarrow \ \frac{\partial }{\partial \Theta^{(l)}_{ij}}J(\Theta)=D^{(l)}_{ij}$

对于只有一个输出单元的神经网络： $\delta^{(l)}_j$ 为 $a^{(l)}_j$ ( $l$ 层第 $j$ 个单元)的代价误差；
更正式的表达： $\delta^{(l)}_j=\frac{\partial }{\partial Z^{(l)}_j}cost(i)\quad (j\geqslant 0)$ 其中， $cost(i)=y^{(i)}log(h_\Theta(x^{(i)}))+(1-y^{(i)})log(1-h_\Theta(x^{(i)}))$

利用高级最优化算法最小化 $J(\Theta)$ ：

function[jVal,gradient] = costFunction(theta)
...
optTheta = fminunc(@costFunction,initialTheta,options)

这种方法中， $theta,gradient$ 值均为向量。

对于神经网络(4层为例)：
$\Theta^{(1)},\Theta^{(2)},\Theta^{(3)}$ —-矩阵( $Theta1,Theta2,Theta3$ )
$D^{(1)},D^{(2)},D^{(3)}$ —-矩阵( $D1,D2,D3$ )
为了使用优化算法，需要将矩阵展开成向量：

thetaVector = [Theta1(:);Theta2(:);Theta3(:)];
deltaVector = [D1(:);D2(:);D3(:)];

如果 $Theta1$ 的维度为 $10\times11$ ， $Theta2$ 的维度为 $10\times11$ ， $Theta3$ 的维度为 $1\times11$ ，则从向量中返回矩阵的方法如下：

Theta1 = reshape(thetaVector(1:110),10,11);
Theta2 = reshape(thetaVector(111:220),10,11);
Theta3 = reshape(thetaVector(221:231),1,11);

总结：有初始参数 $\Theta^{(1)},\Theta^{(2)},\Theta^{(3)}$ ,展开后获得 $initialTheta$ ，传值给：

fminunc(@costFunction,initialTheta,options)

function[jVal,gradientVec] = costFunction(thetaVec)

上面代价函数 $costFunction$ 内的具体步骤如下：
$\Rightarrow \$ 从 $thetaVec$ 中得到 $\Theta^{(1)},\Theta^{(2)},\Theta^{(3)}$ ；
$\Rightarrow \$ 使用前向传播及反向传播算法计算 $D^{(1)},D^{(2)},D^{(3)}$ 及 $J(\Theta)$ ；
$\Rightarrow \$ 展开 $D^{(1)},D^{(2)},D^{(3)}$ 获得 $gradientVec$ 。

梯度检测：可以减少梯度下降存在错误的风险。
$\theta \in R^{n}$ ( $\theta$ 是 $\Theta^{(1)},\Theta^{(2)},\Theta^{(3)}$ 的展开向量)
$\theta=\theta_1,\theta_2,\theta_3,\cdots,\theta_n$
由于 $\frac{\partial }{\partial \Theta}J(\Theta)\approx {{J(\Theta+\epsilon)-J(\Theta-\epsilon)}\over 2\epsilon}$ ( $\epsilon$ 取 $10^{-4}$ 即可)
所以：
$\frac{\partial }{\partial \theta_1}J(\Theta)\approx {{J(\theta_1+\epsilon,\theta_2,\theta_3,\cdots,\theta_n)-J(\theta_1-\epsilon,\theta_2,\theta_3,\cdots,\theta_n)}\over 2\epsilon}$
$\frac{\partial }{\partial \theta_2}J(\Theta)\approx {{J(\theta_1,\theta_2+\epsilon,\theta_3,\cdots,\theta_n)-J(\theta_1,\theta_2-\epsilon,\theta_3,\cdots,\theta_n)}\over 2\epsilon}$
$\cdots$
$\frac{\partial }{\partial \theta_n}J(\Theta)\approx {{J(\theta_1,\theta_2,\theta_3,\cdots,\theta_n+\epsilon)-J(\theta_1,\theta_2,\theta_3,\cdots,\theta_n-\epsilon)}\over 2\epsilon}$

$Octave$ 中的实现代码如下：

EPSILON = 1e-4;
for i = 1:n,
    thetaPlus = theta;
    thetaPlus(i) = thetaPlus(i) + EPSILON;
    thetaMinus = theta;
    thetaMinus(i) = thetaMinus(i) + EPSILON;
    gradApprox(i) = (J(thetaPlus)-J(thetaMinus))/(2*EPSILON);
end;

$check\ gradApprox\approx Dvec$

梯度检测总结：

利用反向传播算法计算 $Dvec$ ( $D^{(1)},D^{(2)},D^{(3)}$ 的展开)；
利用梯度检测算法计算 $gradApprox$ ；
确保两者相近；
关闭梯度检测算法，用反向传播算法学习。

确保在开始训练模型之前关闭梯度检测算法，否则运算会很慢。

随机初始化：
当使用梯度下降或高级优化算法时，需要设置初始值：

optTheta = fminunc(@costFunction,initialTheta,options);

对于神经网络来说，若 $\theta$ 全初始化为0，当进行反向传播算法时，所有的单元会更新成相同的值，故采用下列代码进行随机初始化： $\theta^{(l)}_{ij}\in [-\epsilon,\epsilon]$
如果 $Theta1$ 为 $10\times11$ 矩阵， $Theta2$ 为 $10\times11$ 矩阵， $Theta3$ 为 $1\times11$ 矩阵：

Theta1 = rand(10,11)*(2*INIT_EPSILON)-INIT_EPSILON;
Theta2 = rand(10,11)*(2*INIT_EPSILON)-INIT_EPSILON;
Theta3 = rand(1,11)*(2*INIT_EPSILON)-INIT_EPSILON;

$rand(x,y)$ 为生成 $x\times y$ 矩阵，元素值 $\in (0,1)$ ；
此处 $EPSILON$ 与梯度检测时的不同，可以取 $0.12$ 。

总体总结：

训练神经网络的步骤：

搭建网络架构(即神经元连接方式)；
输入层单元数：特征集 $x^{(i)}$ 的维度
输出层单元数：分类的类别数
如果 $y\in \{1,2,3,\cdots,10\}$ ，要将其改写成向量 $y= \left[ \begin{array}{c} 1\\ 0\\ 0\\ \vdots\\ 0 \end{array} \right] or\left[ \begin{array}{c} 0\\ 1\\ 0\\ \vdots\\ 0 \end{array} \right]or\left[ \begin{array}{c} 0\\ 0\\ 1\\ \vdots\\ 0 \end{array} \right]\cdots\left[ \begin{array}{c} 0\\ 0\\ 0\\ \vdots\\ 1 \end{array} \right]$
默认规则：推荐设置一个隐藏层，如果隐藏层 $\gt1$ ，则每个隐藏层包含相同数目的单元，对于单层的具体单元数，越多越好，但越多计算量越大，一般隐藏层单元数稍大于特征数都可以接受；
随机初始化权重，将权重初始化为很小的值，接近于0；
执行前向传播算法，获取每个输入 $x^{(i)}$ 对应的 $h_\Theta(x^{(i)})$ ；
利用代码计算代价函数 $J(\Theta)$ ；
执行反向传播算法计算 $\frac{\partial }{\partial \Theta^{(l)}_{jk}}J(\Theta)$ ：
$for\ i=1:m,$
$\{$
$\quad$ 执行前向传播算法和反向传播算法利用 $(x^{(i)},y^{(i)})$ 获取激励 $a^{(l)}$ 和误差 $\delta^{(l)}\ (for\ l=2,\cdots,L)$
$\quad\Delta^{(l)}:=\Delta^{(l)}+\delta^{(l+1)}(a^{(l)})^T$
$\}$
计算 $\frac{\partial }{\partial \Theta^{(l)}_{jk}}J(\Theta)$ ；
利用梯度检测比较反向传播算法计算得到的 $\frac{\partial }{\partial \Theta^{(l)}_{jk}}J(\Theta)$ 和通过 $J(\Theta)$ 梯度下降数值计算得到的 $\frac{\partial }{\partial \Theta^{(l)}_{jk}}J(\Theta)$ ，然后注释掉梯度检测的代码；
利用梯度下降或最优化算法最小化 $J(\Theta)$ ，得到参数 $\Theta$ 。
注：对于神经网络， $J(\Theta)$ 是一个非凸函数，通常得到局部最小值。

痞靥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Coursea-吴恩达-machine learning学习笔记（九）【week 5之Neural Networks: Learning】

神经网络模型存在训练集： {(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\} 常用的符号表示：LLL：神经网络的层数；SlSlS_l：第lll层的单元...
复制链接

扫一扫

专栏目录