机器学习公式推导

最新推荐文章于 2024-08-13 20:36:53 发布

dabokele

最新推荐文章于 2024-08-13 20:36:53 发布

阅读量9.8k

点赞数 15

分类专栏：数据挖掘深度学习

本文链接：https://blog.csdn.net/dabokele/article/details/79727956

版权

数据挖掘同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

深度学习

3 篇文章 0 订阅

订阅专栏

　　本篇笔记主要记录及推导Andrew NG的Machine Learning课程中出现的公式。

　　我们假设对于任意的分类、聚类、回归等问题在自然界中总是存在一个精确的模型与之相对应，接下来我们要做的就是根据获取的样本来反推并确定这个模型。由于我们毕竟无法遍历这个问题所有的情况，所以我们只能根据获取的样本去尽可能接近的确定这个模型。

　　公式化上面这段描述，问题对应的模型就藏在假设空间(Hypothesis) $h_\theta(x)$ 中，我们需要通过观测样本，确定其中的 $\theta$ 值。在确定 $\theta$ 值的过程中，定义一个损失函数(Cost Function) $J(\theta)$ ，如果我们获取的样本在某一个参数 $\theta$ 时使损失值达到最小，即表示当前 $\theta$ 值确定的模型可以使预测值很接近观察值。那么这个模型就是我们需要寻找的。

　　对于监督学习，我们要做的就是确定目标函数，损失函数，然后通过样本训练，得到损失值最小的那一组参数值，用该参数值代入目标函数，即可得到对应问题的模型。

一、线性回归模型

1、单一变量的线性回归模型

　　目标函数：

h θ (x) = θ 0 + θ 1 x

$h_\theta(x) = \theta_0 + \theta_1x$
　　 损失函数：

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_0, \theta_1) = \frac 1{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

　　公式说明：
　　 $h_\theta(x^{(i)}):第i个样本$
　　 $y^{(i)}:第i个样本对应的实际值$

　　接下来的目标就是找到一组参数值，使得损失函数值最小，即

m i n i m i z e θ 0, θ 1 J (θ 0, θ 1)

$\underset{\theta_0, \theta_1}{minimize} J(\theta_0, \theta_1)$

　　求损失函数最小值时，使用梯度下降(Gradient descent)的方法。在微积分中我们学过梯度，梯度方向是函数值下降最快的方向，所以在梯度下降方法中，我们分别求 $\theta_0和\theta_1$ 的偏导数，然后用该导数值更新参数值。

} r e p e a t u n t i l c o n v e r g e n c e {θ j : = θ j - α \partial \partial θ j J (θ 0, θ 1) (f o r j = 1 a n d j = 0) (7)

$\begin{equation}\begin{split} &repeat\ until\ convergence \{ \\ &\quad\quad\theta_j := \theta_j - \alpha\frac {\partial}{\partial\theta_j}J(\theta_0, \theta_1)\\ &\quad\quad\quad(for\ j\ =\ 1\ and\ j\ =\ 0)\\ \} \end{split}\end{equation}$

　　说明，上面公式中的 $:=$ 表示赋值的意思，如果直接写a = 1可能会被误理解为判断a是否等于1。

　　求损失函数 $J(\theta_0, \theta_1)$ 对 $\theta_0$ 和 $\theta_1$ 的偏导数，

\partial \partial θ 0 J (θ 0, θ 1) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \partial \partial θ 1 J (θ 0, θ 1) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i)

$\frac {\partial} {\partial\theta_0}J(\theta_0, \theta_1) = \frac 1m\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})\\ \frac {\partial} {\partial\theta_1}J(\theta_0, \theta_1) = \frac 1m\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})x^{(i)}$

使用偏导数公式对上式展开。

} r e p e a t u n t i l c o n v e r g e n c e {θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) θ 1 : = θ 1 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) (8)

$\begin{equation}\begin{split} &repeat\ until\ convergence \{ \\ &\quad\quad\theta_0 := \theta_0 -\alpha \frac 1m\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})\\ &\quad\quad\theta_1 := \theta_1 - \alpha\frac 1m\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})x^{(i)}\\ \} \end{split}\end{equation}$ 　

2、多变量线性回归模型

　　上一节的模型中只有一个指标 $x$ ，理解了线性回归模型及其寻找最优化参数的过程。接下来将该思路应用到多变量模型中。

（1）目标函数

h_{θ} (x) = θ_{0} x_{0} + θ_{1} x_{1} + θ_{2} x_{2} + \dots + θ_{n} x_{n}

$h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n$
　　上式中的

x1,x2,⋯,xn x 1 , x 2 , ⋯ , x n $x_1, x_2, \cdots, x_n$ 都是给定样本中的指标，其中

x0=1 x 0 = 1 $x_0 = 1$ 是人为增加的。
　　如果将目标函数使用向量表示，

h θ (x) = θ T x

$h_\theta(x) = \theta^Tx$

（2）损失函数

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta) = \frac 1{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

（3）梯度下降

} r e p e a t u n t i l c o n v e r g e n c e {θ j : = θ j - α \partial \partial θ j J (θ) (f o r j = 0, \dots, n) (9)

$\begin{equation}\begin{split} &repeat\ until\ convergence \{ \\ &\quad\quad\theta_j := \theta_j - \alpha\frac {\partial}{\partial\theta_j}J(\theta)\\ &\quad\quad\quad(for\ j\ =\ 0\ ,\cdots,\ n)\\ \} \end{split}\end{equation}$

　　分别对 $\theta_0, \theta_1, \theta_2$ 求偏导数并进行展开，如下所示

θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) θ 1 : = θ 1 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 1 θ 2 : = θ 2 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 2 \dots

$\theta_0 := \theta_0 - \alpha\frac 1m\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})\\ \theta_1 := \theta_1 - \alpha\frac 1m\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})x_1^{(i)}\\ \theta_2 := \theta_2 - \alpha\frac 1m\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})x_2^{(i)}\\ \cdots$

（4）公式法

　　如果我们将目标函数向量化， $TX^T\theta=y$ ，需要求解其中的 $\theta$ ，

X θ = y X T X θ = X T y θ = (X T X) - 1 X T y

$X\theta=y\\ X^TX\theta=X^Ty\\ \theta=(X^TX)^{-1}X^Ty$
　　这里需要说明一下，

θ,y,X θ , y , X $\theta, y, X$ 分别代表的含义。在本文中，向量都是小写字母表示，并且都是列向量，即

n∗1 n ∗ 1 $n *1$ 维。矩阵的维度

m∗n m ∗ n $m * n$ 表示有

m m $m$ 行

n

$n$ 列。那么上式中，我们假设

m=4 m = 4 $m=4$ ，

n=5 n = 5 $n=5$ 其中包括

x0 x 0 $x_0$ ，给出一组示例数据

x 0 1111 x 1 210414161534852 x 2 5332 x 3 1221 x 4 45403036 y 460232315178

$\begin{array}{c|lcr} x_0 & x_1 & x_2 & x_3 &x_4 &y \\ \hline 1 & 2104& 5& 1& 45& 460\\ 1 & 1416& 3& 2& 40& 232\\ 1 & 1534& 3& 2& 30& 315\\ 1 & 852 & 2& 1& 36& 178\\ \end{array}$

　　对应的 $X$ 为，每个 $x^{(i)}$ 表示一行数据的话：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 11112104141615348525332122145403036 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ (x (1)) T (x (2)) T (x (3)) T (x (4)) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$X=\begin{bmatrix} 1 & 2104& 5& 1& 45\\ 1 & 1416& 3& 2& 40\\ 1 & 1534& 3& 2& 30\\ 1 & 852 & 2& 1& 36\\ \end{bmatrix} =\begin{bmatrix} (x^{(1)})^T\\ (x^{(2)})^T\\ (x^{(3)})^T\\ (x^{(4)})^T\\ \end{bmatrix}$

　　对应的 $y$ 为：

y = [\begin{matrix} 460 \\ 232 \\ 315 \\ 178 \end{matrix}]

$y=\begin{bmatrix} 460\\ 232\\ 315\\ 178\\ \end{bmatrix}$

　　对应的 $\theta$ 为：

θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 θ 2 θ 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\theta=\begin{bmatrix} \theta_0\\ \theta_1\\ \theta_2\\ \theta_3\\ \end{bmatrix}$

二、逻辑回归模型

1、逻辑回归模型

　　上面的线性回归模型输出结果为连续值，如果我们面对的是一个分类模型，比如判断是否为垃圾邮件，或者其他的分类问题时，就不能直接使用线性回归模型了。

　　逻辑回归模型是在线性回归模型上的一个演变，它通过一个逻辑函数可以将线性回归模型的输出结果转变为0或1的离散输出。

（1）逻辑函数

　　即Logistic Function，也称为Sigmoid Function，如下所示，

g (z) = 1 1 + e - z

$g(z)=\frac 1{1 + e^{-z}}$
　　对应的函数图形为：

Sigmoid函数图形

　　从图中可以看到，横轴是连续取值，但是纵轴上的取值范围被限制在0和1之间，Sigmoid函数可以将连续值转变为0或1的离散值。

　　如果将上面的逻辑函数 $g(z)$ 应用在线性回归模型的输出函数 $h_\theta(x)$ 上，就可以得到本节所讲的逻辑回归模型。

（2）目标函数

h θ (x) = 1 1 + e - θ T x

$h_\theta(x) = \frac 1{1 + e^{-\theta^Tx}}$

　　当 $y=1$ 时， $h_\theta(x)$ 的值，可以理解为是对当前样本 $x$ ，在参数 $\theta$ 的情况下被预测为1的概率。即

P (y = 1 | x, θ) = h θ (x) = 1 1 + e - θ T x

$P(y = 1|x,\theta) = h_\theta(x)=\frac 1{1 + e^{-\theta^Tx}}$

（3）损失函数

　　在前面的线性回归模型中，损失函数如下

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 = 1 m \sum i = 1 m 1 2 (h θ (x (i)) - y (i)) 2

$J(\theta) = \frac 1{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2\\=\frac 1m\sum_{i=1}^m\frac 12(h_\theta(x^{(i)})-y^{(i)})^2$

　　上式第二行中将 $\frac 12$ 向后移动到求和项中，如果将求和项中整体定义为

C o s t (h θ (x), y) = 1 2 (h θ (x (i)) - y (i)) 2

$Cost(h_\theta(x), y)=\frac 12(h_\theta(x^{(i)})-y^{(i)})^2$ ，

　　那么线性回归的损失函数可以写成

J (θ) = 1 m \sum i = 1 m C o s t (h θ (x), y) C o s t (h θ (x), y) = 1 2 (h θ (x (i)) - y (i)) 2

$J(\theta) = \frac 1m\sum_{i=1}^mCost(h_\theta(x), y)\\Cost(h_\theta(x), y)=\frac 12(h_\theta(x^{(i)})-y^{(i)})^2$

　　线性回归使用的是平方损失，如果我们直接将平方损失函数应用到逻辑回归模型中，最终得到的 $J(\theta)$ 可能如下图所示，

non-convex

　　逻辑回归模型中使用的是对数损失，定义如下

C o s t (h θ (x), y) = {- l o g (h θ (x)) - l o g (1 - h θ (x)) y = 1 y = 0

$Cost(h_\theta(x), y)=\begin{cases}-log(h_\theta(x))&y=1\\-log(1-h_\theta(x))&y=0\end{cases}$

　　可以画出对数损失函数图形来看，当 $y=1$ 并且 $h_\theta(x)=1$ 时， $Cost=0$ ，当 $y=1$ 并且 $h_\theta(x)\rightarrow0$ 时， $Cost\rightarrow \infty$ 。 $y=0$ 时情况类似。

　　最后，将逻辑回归的对数损失函数进行融合，

C o s t (h θ (x), y) = - y l o g (h θ (x)) - (1 - y) l o g (1 - h θ (x))

$Cost(h_\theta(x), y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x))$

　　将 $Cost(h_\theta(x), y)$ 代入 $J(\Theta)$ 可以得到逻辑回归完整的损失函数如下

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))]

$J(\theta)=-\frac 1m\sum_{i=1}^m[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]$

　　逻辑回归中使用对数损失函数来求解参数，与采用极大似然估计求参数是一致的。

　　以下为对数损失函数和极大似然估计的分析过程：

　　假设样本服从伯努利分布(0-1分布)，则有
$P (h θ (x) = y) = {1 - p p n = 0 n = 1$ $P(h_\theta(x)=y)=\begin{cases}1-p&n=0\\p&n=1\end{cases}$
　　似然函数如下： $L (θ) = \prod i = 1 m P (y = 1 | x i, θ) y i P (y = 0 | x i, θ) 1 - y i$ $L(\theta) = \prod_{i=1}^mP(y=1|x_i, \theta)^{y_i}P(y=0|x_i,\theta)^{1-y_i}$
　　对数似然函数为： $l n L (θ) = \sum i = 1 m [y i l n (P (y = 1 | x i, θ) + (1 - y i) l n P (y = 0 | x i, θ)] = \sum i = 1 m [y i l n (P (y = 1 | x i, θ) + (1 - y i) l n (1 - P (y = 0 | x i, θ))]$ $lnL(\theta) =\sum_{i=1}^m[y_iln(P(y=1|x_i, \theta) + (1-y_i)lnP(y=0|x_i,\theta)]\\=\sum_{i=1}^m[y_iln(P(y=1|x_i, \theta) +(1-y_i)ln(1-P(y=0|x_i, \theta))]$
　　根据对数损失函数的定义 $C o s t (y, p (y | x) = - y l n p (y | x) - (1 - y) l n (1 - p (y | x))$ $Cost(y, p(y|x) = -ylnp(y|x) - (1-y)ln(1-p(y|x))$
　　那么对于全体样本，损失函数如下： $C o s t (y, p (y | x) = - \sum i = 1 m [y i l n p (y i | x i) - (1 - y i) l n (1 - p (y i | x i))]$ $Cost(y, p(y|x) = -\sum_{i=1}^m[y_ilnp(y_i|x_i) - (1-y_i)ln(1-p(y_i|x_i))]$

　　可以看到，对数损失函数与上面的极大似然函数本质上是等价的。所以，逻辑回归直接采用对数损失函数，与采用极大似然估计是一致的。

（4）梯度下降

　　接下来使用梯度下降方法求解逻辑回归的最佳参数，求解损失函数

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))]

$J(\theta)=-\frac 1m\sum_{i=1}^m[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]$
　　的最优解过程如下，

r e p e a t} u n t i l c o n v e r g e n c e {θ j : = θ j - α \partial θ J (θ) : = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j (10)

$\begin{equation}\begin{split} repeat\ &until\ convergence \{ \\ &\theta_j := \theta_j - \alpha \frac \partial \theta J(\theta)\\ &\quad:=\theta_j - \alpha\frac 1m\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}\\ \} \end{split}\end{equation}$

　　以下为求 $\frac {\partial}{\partial \theta_j}J(\theta)$ 的过程，

以下为了简便，将 $h_\theta(x)$ 记作 $h$ ，那么 $h = \frac 1{1+e^{-\theta^Tx}}$ 对 $\theta$ 求偏导数如下，

$\partial \partial θ h = x e - θ T x ( 1 + e - θ T x ) 2 = x e - θ T x 1 + e - θ T x 1 1 + e - θ T x = x (1 - 1 1 + e - θ T x) 1 1 + e - θ T x = x (1 - h) h$ $\begin{split}\frac \partial {\partial \theta}h&= \frac {xe^{-\theta^Tx}}{(1+e^{-\theta^Tx})^2}\\ &=x\frac{e^{-\theta^Tx}}{1+e^{-\theta^Tx}} \frac{1}{1+e^{-\theta^Tx}}\\ &=x(1-\frac{1}{1+e^{-\theta^Tx}})\frac{1}{1+e^{-\theta^Tx}}\\ &=x(1-h)h \end{split}$
将 $C o s t (h θ (x), y) = - y l o g (h θ (x)) - (1 - y) l o g (1 - h θ (x))$ $Cost(h_\theta(x), y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x))$ 简记为 $C o s t (h, y) = - y l o g (h) - (1 - y) l o g (1 - h)$ $Cost(h, y)=-ylog(h)-(1-y)log(1-h)$
那么 $\partial \partial θ C o s t (h, y) = - y 1 h \partial \partial θ h - (1 - y) 1 1 - h (- \partial \partial θ h) = - y 1 h \partial \partial θ h + (1 - y) 1 1 - h \partial \partial θ h = - y ( 1 - h ) h ( 1 - h ) \partial \partial θ h + h ( 1 - y ) h ( 1 - h ) \partial \partial θ h = - y + y h + h - y h h ( 1 - h ) \partial \partial θ h = h - y h ( 1 - h ) \partial \partial θ h = h - y h ( 1 - h ) x h (1 - h) = x (h - y)$ $\begin{split} \frac \partial{\partial \theta}Cost(h, y)&=-y\frac 1h\frac \partial {\partial \theta}h -(1-y)\frac 1{1-h}(-\frac \partial {\partial \theta}h) \\ &=-y\frac 1h\frac \partial {\partial \theta}h +(1-y)\frac 1{1-h}\frac \partial {\partial \theta}h\\ &=\frac {-y(1-h)}{h(1-h)}\frac \partial {\partial \theta}h+\frac {h(1-y)}{h(1-h)}\frac \partial {\partial \theta}h\\ &=\frac {-y + yh + h -yh}{h(1-h)}\frac \partial {\partial \theta}h\\ &=\frac {h-y}{h(1-h)}\frac \partial {\partial \theta}h\\ &=\frac {h-y}{h(1-h)}xh(1-h)\\ &=x(h-y) \end{split}$
将上式代入 $J(\theta) = \frac 1m\sum_{i=1}^mCost(h_\theta(x), y)$ ，可得到
$\partial θ J (θ) = 1 m \sum i = 1 m \partial \partial θ C o s t (h θ (x), y) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i)$ $\begin{split} \frac \partial \theta J(\theta) &= \frac 1m\sum_{i=1}^m\frac \partial{\partial \theta}Cost(h_\theta(x), y)\\ &=\frac 1m \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x^{(i)} \end{split}$
那么对于梯度下降，
$θ j : = θ j - α \partial θ J (θ) : = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j$ $\begin{split} \theta_j &:= \theta_j - \alpha \frac \partial \theta J(\theta)\\ &:=\theta_j - \alpha\frac 1m\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \end{split}$
因为 $\alpha$ 是一个常量，并且 $\frac 1m$ 对于一个给定的样本也是一个常量，所以可以将 $\frac \alpha m$ 直接写成 $\alpha$ 。

三、正则化

1、过拟合

　　正则化的目的是防止过拟合，当指标较多，并且训练样本较少时得到的模型可能会出现过拟合。过拟合从函数图像上的理解就是，训练得到的模型完全拟合给定样本，可能出现对于训练样本，损失值为0，而对于未在训练样本中出现过的样本，误差会很大。下图示例了过拟合，

过拟合

2、线性回归模型正则化

　　图中蓝色线条为线性回归模型的过拟合情况，增加了 $\theta_3x^3$ 和 $\theta_4x^4$ 两项后，曲线完全拟合给定样本。而红色曲线是训练的比较好的情况。在这里，我们如果想将 $\theta_3x^3$ 和 $\theta_4x^4$ 从模型中剔除，可以将损失函数进行一定改造，如下所示，

m i n θ 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 + 1000 θ 23 + 1000 θ 24

$\underset \theta{min} \frac 1{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 + 1000\theta_3^2 + 1000\theta_4^2$

　　上面这个损失函数中，由于给了 $\theta_3$ 和 $\theta_4$ 两个很大的系数，所以最终得到 $\theta_3$ 和 $\theta_4$ 接近于0才能使损失函数值尽可能小。

　　正则化基本上就是这个过程，会为除 $\theta_0$ 之外每个参数值增加一个类似的系数。增加了正则化后的线性回归模型损失函数如下，

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(\theta) = \frac 1{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 + \lambda\sum_{j=1}^n\theta_j^2]$

3、欠拟合

　　假如我们给 $\lambda$ 设置一个很大的参数，可能会出现过拟合的情况，因为这时候需要得到最小损失值，可能会将所有 $\theta$ 全部训练为0。可能最终得到的目标函数是 $h_\theta(x)=\theta_0$ ，欠拟合的函数图形如下所示，

欠拟合

4、线性回归模型梯度下降

　　对正则化之后的损失函数进行梯度下降求解参数值的过程如下所示，

r e p e a t} u n t i l c o n v e r g e n c e {θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0 θ j : = θ j (1 - α λ m) - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j (11)

$\begin{equation}\begin{split} repeat\ &until\ convergence \{ \\ &\theta_0 := \theta_0 - \alpha \frac 1m\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}\\ &\theta_j:=\theta_j(1-\alpha \frac\lambda m) - \alpha\frac 1m\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}\\ \} \end{split}\end{equation}$

　　这里更新 $\theta_j$ 时乘以了一个系数 $1-\alpha \frac\lambda m$ ，由于 $\alpha, \lambda, m$ 都是正数，所以该系数是一个大于零的分数，最终和之前不同的是在更新 $\theta$ 值时会逐渐缩小 $\theta$ 值。

5、逻辑回归模型正则化

　　逻辑回归模型的正则化也是在损失函数最后增加正则项，如下所示，

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] + λ \sum j = 1 n θ 2 j

$J(\theta)=-\frac 1m\sum_{i=1}^m[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+ \lambda\sum_{j=1}^n\theta_j^2$

6、逻辑回归模型梯度下降

r e p e a t} u n t i l c o n v e r g e n c e {θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0 θ j : = θ j (1 - α λ m) - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j (12)

7、L1正则

8、L2正则

四、神经网络

1、神经网络结构

　　神经网络模型是模拟生物神经元，神经网络中每个节点可以理解成一个变量比如 $x_i$ ，不同层之间的连接线可以理解成参数比如 $\theta_j$ 。神经网络结构如下所示，

神经网络模型

　　上图中，第一层中的 $x_1, x_2, x_3$ 即前面回归模型中见到的样本各指标值，第一层也被称为输入层，最后一层的输出就是我们前面介绍到的 $h_\theta(x)$ 的输出值，最后一层也被称为输出层。并且在实现神经网络模型时会为除输出层之外的每一层增加一个 $x_0$ 或$a_0^{(2)}这么一个偏置项。

　　定义几个概念：

$a_i^{(j)}$ ，表示第 $j$ 层的第 $i$ 个节点
$\Theta^{(j)}$ ，表示从第 $j$ 层到第 $j+1$ 层的参数矩阵，图中 $\Theta^{(1)}$ 是一个 $3*4$ 的矩阵，3表示下一层(即第2层)有3个节点，4表示本层(即第1层)有4个节点(包含 $x_0$ 项)

　　生物上的神经元之间传递的电信号，一般是高低电平，而非一个连续的值。所以在我们的神经网络中一般会应用一个激活函数 $g(x)$ ，以后未作特殊说明， $g(x)$ 一般取Sigmoid函数。上图中神经网络结构对应的表达式如下

a (2) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3) a (2) 2 = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3) a (2) 3 = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3) h Θ (x) = a (3) 1 = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$a_1^{(2)} = g(\Theta_{10}^{(1)}x_0+\Theta_{11}^{(1)}x_1+\Theta_{12}^{(1)}x_2+\Theta_{13}^{(1)}x_3)\\ a_2^{(2)} = g(\Theta_{20}^{(1)}x_0+\Theta_{21}^{(1)}x_1+\Theta_{22}^{(1)}x_2+\Theta_{23}^{(1)}x_3)\\ a_3^{(2)} = g(\Theta_{30}^{(1)}x_0+\Theta_{31}^{(1)}x_1+\Theta_{32}^{(1)}x_2+\Theta_{33}^{(1)}x_3)\\ h_\Theta(x)=a_1^{(3)}= g(\Theta_{10}^{(2)}a_0^{(2)}+\Theta_{11}^{(2)}a_1^{(2)}+\Theta_{12}^{(2)}a_2^{(2)}+\Theta_{13}^{(2)}a_3^{(2)})$

　　需要注意的是神经网络并不是如上面示例中只有一个中间层，而是可以更多，并且每一层的激活函数 $g(x)$ 也可以不相同。

2、神经网络实现的逻辑功能

　　这里用简单的神经网络结构示例如何实现 $XOR, XNOR, OR, AND, OR$ 等逻辑操作。

（1）AND

　　网络结构如下所示

AND

　　表达式为

h Θ (x) = g (- 30 + 20 x 1 + 20 x 2)

$h_\Theta(x)=g(-30 + 20x_1 + 20x_2)$

（2）OR

　　网络结构如下所示

　　表达式为

h Θ (x) = g (- 10 + 20 x 1 + 20 x 2)

$h_\Theta(x)=g(-10 + 20x_1 + 20x_2)$

（3）NOT

　　网络结构如下所示

NOT

　　表达式为

h Θ (x) = g (10 - 20 x 1)

$h_\Theta(x)=g(10-20x_1)$

（4）XNOR

　　网络结构如下所示，要想实现 $XNOR$ 功能，简单的模型就不能实现了。下面同时使用了 $AND, OR, NOT$ 进行组合，并且构建多层网络模型才得以实现。

XNOR

3、损失函数

　　神经网络的损失函数如下：

J(\Theta) = -\frac 1m \sum_{i=1}^m\sum_{k=1}^K[y_k^{(i)}log(h_\Theta(x^{(i)})_k) + (1-y_k^{(i)})log(1-(h_\Theta(x^{(i)})_k)] + \frac \lambda {2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\Theta_{ji}^{(l)})^2\tag{1}\label{1} J(\Theta) = -\frac 1m \sum_{i=1}^m\sum_{k=1}^K[y_k^{(i)}log(h_\Theta(x^{(i)})_k) + (1-y_k^{(i)})log(1-(h_\Theta(x^{(i)})_k)] + \frac \lambda {2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\Theta_{ji}^{(l)})^2\tag{1}\label{1}

$J(\Theta) = -\frac 1m \sum_{i=1}^m\sum_{k=1}^K[y_k^{(i)}log(h_\Theta(x^{(i)})_k) + (1-y_k^{(i)})log(1-(h_\Theta(x^{(i)})_k)] + \frac \lambda {2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\Theta_{ji}^{(l)})^2\tag{1}\label{1}$

　　上式中， $L$ 表示神经网络的总层数， $s_l$ 表示第 $l$ 层中神经元的个数(不包括偏置单元)。 $h_\Theta(x) \in R^K, （h_\Theta(x))_i=i^{th}\ output$ ，其中 $K$ 表示第 $K$ 个节点，那么 $y_k^{(i)}$ 表示对于样本 $i$ 的第 $k$ 个输出值。当分析的问题为二分类问题时， $k=1$ ，当分析的问题为多分类问题时， $k$ 为对应的分类数。

4、BP算法(Backpropagation Algorithm)

　　我们需要根据上一节中列举的损失函数求出全部的 $\theta$ 值，得到 $\underset \Theta {min} J(\Theta)$ ，接下来用梯度下降求解的话，需要计算 $\frac \partial {\partial\Theta_{ij}^{(l)}}J(\Theta)$ 。

　　对于一个包含两个隐含层的神经网络结构，给定一组样本 $(x, y)$ ，可以依次得到每一层相关数据：

\begin{split}&a^{(1)}=x \\&z^{(2)}=\Theta^{(1)}a^{(1)} \\&a^{(2)}=g(z^{(2)}) \ (add a_0^{(2)})\\&z^{(3)}=\Theta^{(2)}a^{(2)}\\&a^{(3)}=g(z^{(3)})\ (add a_0^{(3)})\\&z^{(4)}=\Theta^{(3)}a^{(3)}\\&a^{(4)}=h_\Theta(x)=g(z^{(4)})\end{split}\tag{2}\label{2} \begin{split}&a^{(1)}=x \\&z^{(2)}=\Theta^{(1)}a^{(1)} \\&a^{(2)}=g(z^{(2)}) \ (add a_0^{(2)})\\&z^{(3)}=\Theta^{(2)}a^{(2)}\\&a^{(3)}=g(z^{(3)})\ (add a_0^{(3)})\\&z^{(4)}=\Theta^{(3)}a^{(3)}\\&a^{(4)}=h_\Theta(x)=g(z^{(4)})\end{split}\tag{2}\label{2}

$\begin{split} &a^{(1)}=x \\ &z^{(2)}=\Theta^{(1)}a^{(1)} \\ &a^{(2)}=g(z^{(2)}) \ (add a_0^{(2)})\\ &z^{(3)}=\Theta^{(2)}a^{(2)}\\ &a^{(3)}=g(z^{(3)})\ (add a_0^{(3)})\\ &z^{(4)}=\Theta^{(3)}a^{(3)}\\ &a^{(4)}=h_\Theta(x)=g(z^{(4)}) \end{split}\tag{2}\label{2}$

　　根据公式 $\eqref{1}$ ，对于二分类的单个样本，损失函数如下

J(\Theta) = - [ylog(h_\Theta(x)) + (1-y)log(1-(h_\Theta(x))] + \lambda\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\Theta_{ji}^{(l)})^2 \tag{3}\label{3} J(\Theta) = - [ylog(h_\Theta(x)) + (1-y)log(1-(h_\Theta(x))] + \lambda\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\Theta_{ji}^{(l)})^2 \tag{3}\label{3}

$J(\Theta) = - [ylog(h_\Theta(x)) + (1-y)log(1-(h_\Theta(x))] + \lambda\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\Theta_{ji}^{(l)})^2 \tag{3}\label{3}$

　　以下为该公式的推导过程

计算 $\Theta^{(3)}$ 的梯度，结合公式 $\eqref{2}$ ：

$\frac {\partial J(\Theta)}{\partial \Theta^{(3)}}=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}} * \frac {\partial z^{(4)}}{\partial \Theta^{(3)}} \tag{4}\label{4} \frac {\partial J(\Theta)}{\partial \Theta^{(3)}}=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}} * \frac {\partial z^{(4)}}{\partial \Theta^{(3)}} \tag{4}\label{4}$ $\frac {\partial J(\Theta)}{\partial \Theta^{(3)}}=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}} * \frac {\partial z^{(4)}}{\partial \Theta^{(3)}} \tag{4}\label{4}$
如果将式 $\eqref{4}$ 中等号右边前两项定义为 $\delta^{(4)}$ ，则有
$\delta^{(4)}=\frac {\partial}{\partial z^{(4)}}J(\Theta)=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}}\tag{5}\label{5} \delta^{(4)}=\frac {\partial}{\partial z^{(4)}}J(\Theta)=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}}\tag{5}\label{5}$ $\delta^{(4)}=\frac {\partial}{\partial z^{(4)}}J(\Theta)=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}}\tag{5}\label{5}$
结合 $\eqref{3}\eqref{5}$ 并且 $a^{(4)}=h_\Theta(x)=g(z^{(4)})$ 得到如下推导过程：
$g (z (4)) g' (z (4)) = 1 1 + e - z ( 4 ) = e - z ( 4 ) ( 1 + e - z ( 4 ) ) 2 = g (z (4)) (1 - g (z (4)))$ $\begin {split} g(z^{(4)})&=\frac 1{1+e^{-z^{(4)}}}\\ g'(z^{(4)})&=\frac {e^{-z^{(4)}}}{(1+e^{-z^{(4)}})^2}\\ &= g(z^{(4)})(1- g(z^{(4)})) \end{split}$
$\begin{split}\delta^{(4)}&=\frac {\partial}{\partial z^{(4)}}J(\Theta)\\&=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}}\\&=-[y\frac 1{h_\Theta(x)}*h_\Theta'(x)+(1-y)\frac 1{1-h_\Theta(x)}*(-(h_\Theta'(x))]\\&=-[y\frac 1{g(z^{(4)})}*g'(z^{(4)})+(1-y)\frac 1{1-g(z^{(4)})}*(-g'(z^{(4)}))]\\&=-[y(1-g(z^{(4)})) + (y-1)g(z^{(4)})]\\&=g(z^{(4)})-y\\&=a^{(4)}-y\end{split}\tag{6}\label{6} \begin{split}\delta^{(4)}&=\frac {\partial}{\partial z^{(4)}}J(\Theta)\\&=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}}\\&=-[y\frac 1{h_\Theta(x)}*h_\Theta'(x)+(1-y)\frac 1{1-h_\Theta(x)}*(-(h_\Theta'(x))]\\&=-[y\frac 1{g(z^{(4)})}*g'(z^{(4)})+(1-y)\frac 1{1-g(z^{(4)})}*(-g'(z^{(4)}))]\\&=-[y(1-g(z^{(4)})) + (y-1)g(z^{(4)})]\\&=g(z^{(4)})-y\\&=a^{(4)}-y\end{split}\tag{6}\label{6}$ $\begin{split} \delta^{(4)}&=\frac {\partial}{\partial z^{(4)}}J(\Theta)\\ &=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}}\\ &=-[y\frac 1{h_\Theta(x)}*h_\Theta'(x)+(1-y)\frac 1{1-h_\Theta(x)}*(-(h_\Theta'(x))]\\ &=-[y\frac 1{g(z^{(4)})}*g'(z^{(4)})+(1-y)\frac 1{1-g(z^{(4)})}*(-g'(z^{(4)}))]\\ &=-[y(1-g(z^{(4)})) + (y-1)g(z^{(4)})]\\ &=g(z^{(4)})-y\\ &=a^{(4)}-y \end{split}\tag{6}\label{6}$
接下来求 $\frac {\partial J(\Theta)}{\partial \Theta^{(2)}}$ 和 $\frac {\partial J(\Theta)}{\partial \Theta^{(1)}}$ ，由式 $\eqref{2}$ 可得，
$\frac {\partial J(\Theta)}{\partial \Theta^{(2)}}=\frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}\frac {\partial z^{(3)}}{\partial \Theta^{(2)}}\tag{7}\label{7} \frac {\partial J(\Theta)}{\partial \Theta^{(2)}}=\frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}\frac {\partial z^{(3)}}{\partial \Theta^{(2)}}\tag{7}\label{7}$ $\frac {\partial J(\Theta)}{\partial \Theta^{(2)}}=\frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}\frac {\partial z^{(3)}}{\partial \Theta^{(2)}}\tag{7}\label{7}$
令 $\delta^{(3)} =\frac{\partial }{\partial z^{(3)}}J(\Theta)= \frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}$ ，结合 $\eqref{5}$ 则有
$\delta^{(3)} = \frac{\partial }{\partial z^{(3)}}J(\Theta)=\delta^{(4)}*\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}=\delta^{(4)}*\Theta^{(3)}*g'(z^{(3)})\tag{8}\label{8} \delta^{(3)} = \frac{\partial }{\partial z^{(3)}}J(\Theta)=\delta^{(4)}*\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}=\delta^{(4)}*\Theta^{(3)}*g'(z^{(3)})\tag{8}\label{8}$ $\delta^{(3)} = \frac{\partial }{\partial z^{(3)}}J(\Theta)=\delta^{(4)}*\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}=\delta^{(4)}*\Theta^{(3)}*g'(z^{(3)})\tag{8}\label{8}$
$\frac {\partial J(\Theta)}{\partial \Theta^{(1)}}=\frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}\frac {\partial z^{(3)}}{\partial a^{(2)}}\frac {\partial a^{(2)}}{\partial z^{(2)}}\frac {\partial z^{(2)}}{\partial \Theta^{(1)}}\tag{9}\label{9} \frac {\partial J(\Theta)}{\partial \Theta^{(1)}}=\frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}\frac {\partial z^{(3)}}{\partial a^{(2)}}\frac {\partial a^{(2)}}{\partial z^{(2)}}\frac {\partial z^{(2)}}{\partial \Theta^{(1)}}\tag{9}\label{9}$ $\frac {\partial J(\Theta)}{\partial \Theta^{(1)}}=\frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}\frac {\partial z^{(3)}}{\partial a^{(2)}}\frac {\partial a^{(2)}}{\partial z^{(2)}}\frac {\partial z^{(2)}}{\partial \Theta^{(1)}}\tag{9}\label{9}$
令 $\delta^{(2)}=\frac{\partial }{\partial z^{(2)}}J(\Theta)=\frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}\frac {\partial z^{(3)}}{\partial a^{(2)}}\frac {\partial a^{(2)}}{\partial z^{(2)}}$
结合 $\eqref{8}$ 有
$\delta^{(2)}=\frac{\partial }{\partial z^{(2)}}J(\Theta)=\delta^{(3)}*\frac {\partial z^{(3)}}{\partial a^{(2)}}\frac {\partial a^{(2)}}{\partial z^{(2)}}=\delta^{(3)}*\Theta^{(2)}*g'(z^{(2)})\tag{10}\label{10} \delta^{(2)}=\frac{\partial }{\partial z^{(2)}}J(\Theta)=\delta^{(3)}*\frac {\partial z^{(3)}}{\partial a^{(2)}}\frac {\partial a^{(2)}}{\partial z^{(2)}}=\delta^{(3)}*\Theta^{(2)}*g'(z^{(2)})\tag{10}\label{10}$ $\delta^{(2)}=\frac{\partial }{\partial z^{(2)}}J(\Theta)=\delta^{(3)}*\frac {\partial z^{(3)}}{\partial a^{(2)}}\frac {\partial a^{(2)}}{\partial z^{(2)}}=\delta^{(3)}*\Theta^{(2)}*g'(z^{(2)})\tag{10}\label{10}$
结合式 $\eqref{5}\eqref{8}\eqref{10}$ 可以提炼出一个式子，
$\delta^{(l)}=\frac{\partial }{\partial z^{(l)}}J(\Theta)\tag{11}\label{11} \delta^{(l)}=\frac{\partial }{\partial z^{(l)}}J(\Theta)\tag{11}\label{11}$ $\delta^{(l)}=\frac{\partial }{\partial z^{(l)}}J(\Theta)\tag{11}\label{11}$
正是有了式 $\eqref{11}$ 的存在，当反向BP算法反向计算时，会根据保存的上一步的计算结果，进行一些简单计算得到下一层。这样在神经网络很复杂的时候，可以避免大量重复计算。
$\eqref{4}$ 中最后一项 $\frac {\partial z^{(4)}}{\partial \Theta^{(3)}}=a^{(3)}$ ，所以 $\frac {\partial J(\Theta)}{\partial \Theta^{(3)}}=\delta^{(4)}*a^{(3)}=(a^{(4)}-y)a^{(3)}\tag{12}\label{12} \frac {\partial J(\Theta)}{\partial \Theta^{(3)}}=\delta^{(4)}*a^{(3)}=(a^{(4)}-y)a^{(3)}\tag{12}\label{12}$ $\frac {\partial J(\Theta)}{\partial \Theta^{(3)}}=\delta^{(4)}*a^{(3)}=(a^{(4)}-y)a^{(3)}\tag{12}\label{12}$
$\eqref{7}$ 中最后一项 $\frac {\partial z^{(3)}}{\partial \Theta^{(2)}}=a^{(2)}$ ，所以 $\frac {\partial J(\Theta)}{\partial \Theta^{(2)}}=\delta^{(3)} * a^{(2)}=\delta^{(4)}*\Theta^{(3)}*g'(z^{(3)})*a^{(2)}\tag{13}\label{13} \frac {\partial J(\Theta)}{\partial \Theta^{(2)}}=\delta^{(3)} * a^{(2)}=\delta^{(4)}*\Theta^{(3)}*g'(z^{(3)})*a^{(2)}\tag{13}\label{13}$ $\frac {\partial J(\Theta)}{\partial \Theta^{(2)}}=\delta^{(3)} * a^{(2)}=\delta^{(4)}*\Theta^{(3)}*g'(z^{(3)})*a^{(2)}\tag{13}\label{13}$
$\eqref{9}$ 中最后一项 $\frac {\partial z^{(2)}}{\partial \Theta^{(1)}}=a^{(1)}$ ，所以 $\partial J ( Θ ) \partial Θ ( 1 ) = δ (2) * a (1) = δ (3) * Θ (2) * g' (z (2)) * a (1) (14)$ $\frac {\partial J(\Theta)}{\partial \Theta^{(1)}}=\delta^{(2)} * a^{(1)}=\delta^{(3)}*\Theta^{(2)}*g'(z^{(2)})*a^{(1)}\tag{14}\label{14}$

　　最后对于上面的四层神经网络模型，结合公式推导过程，可以得到PPT中如下公式， $\delta_j^{(l)}$ 可以理解为第 $l$ 层第 $j$ 个节点的误差。

δ (4) j = a (4) j - y j δ (3) j = (Θ (3)) T δ (4) . * g' (z (3)) δ (2) j = (Θ (2)) T δ (3) . * g' (z (2))

$\delta_j^{(4)}=a_j^{(4)} - y_j\\ \delta_j^{(3)}=(\Theta^{(3)})^T \delta^{(4)}.*g'(z^{(3)})\\ \delta_j^{(2)}=(\Theta^{(2)})^T\delta^{(3)}.*g'(z^{(2)})$