Coursera机器学习 Week5 笔记

最新推荐文章于 2021-10-17 20:04:16 发布

LVB10101111

最新推荐文章于 2021-10-17 20:04:16 发布

阅读量1.3k

点赞数

分类专栏：机器学习Coursera By Andrew Ng 文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/u013515273/article/details/77341553

版权

机器学习Coursera By Andrew Ng 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

编程作业放到了github上：coursera_machine_learning

Neural Network: Learning

上一周的课程中讲了神经网络的结构以及正向传播(feed forward)过程，了解了神经网络是如何进行预测的，但是预测的结果怎么和真是结果进行比较以及发现了错误如何修改还没有提及。

这一周的课程中，介绍了cost function作为结果比较的标准以及backpropagation方法作为错误修改的方式。

1. Cost Function

Linear regression使用平方差来表示结果之间的差距：

J (θ) = - 1 2 m \sum i = 1 m (y (i)^- y (i)) 2 + λ 2 m \sum j = 1 n θ 2 j

$J(\theta)=-\frac{1}{2m}\sum^{m}_{i=1}\left(\hat{y^\left(i\right)}-y^\left(i\right)\right)^2+\frac{\lambda}{2m}\sum^n_{j=1}\theta^2_j$

Logistic regression使用negative log来表示结果之间的差距：

J (θ) = - 1 2 m \sum i = 1 m y (i) l o g y (i)^+ (1 - y (i)) l o g (1 - y (i)^) + λ 2 m \sum j = 1 n θ 2 j

$J(\theta)=-\frac{1}{2m}\sum^{m}_{i=1}y^\left(i\right)log\hat{y^\left(i\right)}+(1-y^\left(i\right))log(1-\hat{y^\left(i\right)})+\frac{\lambda}{2m}\sum^n_{j=1}\theta^2_j$

Neural network实际上就是k个Logistic regression的一个集合，所以其cost function也是negative log的一个集合。整个网络产生的error其实就是每一个Logistic regression产生的error的和。

但是这里需要注意的是，在这里的k个分类器只关心“是”，并不关心“不是”，也就是说，只关心 $\hat{y^{\left(i\right)}_k}=1$ 的概率，并不想知道道 $\hat{y^{\left(i\right)}_k}=0$ 的概率，所以这里的cost function只要前面计算 $\hat{y^{\left(i\right)}_k}=1$ 的error的一项即可。

另外惩罚函数就是每一层中所有权值的平方和：

J (θ) = - 1 2 m \sum i = 1 m \sum k = 1 K y (i) k l o g y (i) k^+ λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (Θ l j i) 2

$J(\theta)=-\frac{1}{2m}\sum^{m}_{i=1}\sum^K_{k=1}y^\left(i\right)_klog\hat{y^\left(i\right)_k}+\frac{\lambda}{2m}\sum^{L-1}_{l=1}\sum^{s_l}_{i=1}\sum^{s_{l+1}}_{j=1}\left(\Theta^{l}_{ji}\right)^2$

又因为 $y^{\left( i \right)}$ 是一个one-hot向量，所属类别 $c$ 处为1，即 $y^{\left( i \right)}_{c}=1$ ，其余全部为0，则：

J (θ) = - 1 2 m \sum i = 1 m y (i) c l o g y (i) c^+ λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (Θ l j i) 2

$J(\theta)=-\frac{1}{2m}\sum^{m}_{i=1}y^\left(i\right)_{c}log\hat{y^\left(i\right)_{c}}+\frac{\lambda}{2m}\sum^{L-1}_{l=1}\sum^{s_l}_{i=1}\sum^{s_{l+1}}_{j=1}\left(\Theta^{l}_{ji}\right)^2$

2. Backpropagation

在Logistic regression中，模型是向着error的负梯度方向更新的，所以需要计算cost function的梯度，这在Neural Networks中也是如此，只不过这次的权值 $\theta$ 多了一些，需要一层一层慢慢求解了。

假设神经网络有4层：

先来回顾一下，一条训练数据的正向传播的情况，这次我们不把bias直接加到矩阵中去了，把它拿出来，令为 $b^\left(i\right)$ ，是一个列向量：

a (1) = x \in ℝ 3 \times 1

$a^\left(1\right)=x \in \mathbb{R}^{3 \times 1}$

z (2) = Θ (1) a (1) + b (1) (Θ (1) \in ℝ 5 \times 3, b (1) \in ℝ 5 \times 1, z (2) \in ℝ 5 \times 1)

$z^\left(2\right)=\Theta^\left(1\right) a^\left(1\right)+b^\left(1\right) \qquad (\Theta^\left(1\right) \in \mathbb{R}^{5 \times 3}, \ b^\left(1\right) \in \mathbb{R}^{5 \times 1}, \ z^\left(2\right) \in \mathbb{R}^{5 \times 1})$

a (2) = σ (z (2)) \in ℝ 5 \times 1

$a^\left(2\right)=\sigma(z^\left(2\right)) \in \mathbb{R}^{5 \times 1}$

z (3) = Θ (2) a (2) + b (2) (Θ (2) \in ℝ 5 \times 5, b (2) \in ℝ 5 \times 1, z (3) \in ℝ 5 \times 1)

$z^\left(3\right)=\Theta^\left(2\right) a^\left(2\right)+b^\left(2\right) \qquad (\Theta^\left(2\right) \in \mathbb{R}^{5 \times 5}, \ b^\left(2\right) \in \mathbb{R}^{5 \times 1}, \ z^\left(3\right) \in \mathbb{R}^{5 \times 1})$

a (3) = σ (z (3)) \in ℝ 5 \times 1

$a^\left(3\right)=\sigma(z^\left(3\right)) \in \mathbb{R}^{5 \times 1}$

z (4) = Θ (3) a (3) + b (3) (Θ (3) \in ℝ 4 \times 5, b (3) \in ℝ 4 \times 1, z (4) \in ℝ 4 \times 1)

$z^\left(4\right)=\Theta^\left(3\right) a^\left(3\right)+b^\left(3\right) \qquad (\Theta^\left(3 \right) \in \mathbb{R}^{4 \times 5}, \ b^\left(3\right) \in \mathbb{R}^{4 \times 1}, \ z^\left(4\right) \in \mathbb{R}^{4 \times 1})$