机器学习笔记：神经网络

最新推荐文章于 2022-08-11 12:14:41 发布

_Heisenberg_

最新推荐文章于 2022-08-11 12:14:41 发布

阅读量462

点赞数

分类专栏：机器学习文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/u010168625/article/details/51657985

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

神经网络

神经网络包含输入层、隐藏层和输出层三层（隐藏层可以有多层）
在每个节点，我们选择一个函数，用以指示每个节点对输入的响应程度。
在神经网络中，我们通常选择S型函数（如tanh, logistic function）来计算神经元的输出。
以Logistic function为例

1. 模型表示

神经网络

2. 前向反馈（Feeding Forward）

$\Theta_1,\Theta_2$ 分别是输入层与隐藏层、隐藏层与输出层之间的权重。
K为输出节点的个数。

正则化的损失函数（Regularized Cost Function）

without regularization

J (θ) = 1 m \sum i = 1 m \sum k = 1 K [- y (i) k l o g ((h θ (x (i))) k) - (1 - y (i) k) l o g (1 - (h θ (x (i))) k)]

$\begin{equation} J(\theta) = \frac{1}{m}\sum_{i=1}^{m} \sum_{k=1}^{K} [-y_k^{(i)} log((h_\theta(x^{(i)}))_k) - (1 - y_k^{(i)}) log(1 - (h_\theta(x^{(i)}))_k)] \end{equation}$
Regularized cost function

J (θ) = 1 m \sum i = 1 m \sum k = 1 K [- y (i) k l o g ((h θ (x (i))) k) - (1 - y (i) k) l o g (1 - (h θ (x (i))) k)] + λ 2 m ⎡ ⎣ ⎢ ⎢ \sum j = 1 25 \sum k = 1 400 (Θ (1) j, k) 2 + \sum j = 1 10 \sum k = 1 25 (Θ (2) j, k) 2 ⎤ ⎦ ⎥ ⎥

$\begin{equation} J(\theta) = \frac{1}{m}\sum_{i=1}^{m} \sum_{k=1}^{K} [-y_k^{(i)} log((h_\theta(x^{(i)}))_k) - (1 - y_k^{(i)}) log(1 - (h_\theta(x^{(i)}))_k)] \\ + \frac{\lambda}{2m} \left[ \sum_{j=1}^{25}\sum_{k=1}^{400} (\Theta_{j,k}^{(1)})^2 + \sum_{j=1}^{10}\sum_{k=1}^{25}(\Theta_{j,k}^{(2)})^2 \right] \end{equation}$
本例中，输入节点个数为400，隐藏层节点个数维25，输出层节点个数为10。

梯度（Gradient）

\partial J ( θ ) \partial θ 0 = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j f o r j = 0

$\begin{equation} \frac{\partial J(\theta)}{\partial \theta_0} = \frac{1}{m} \sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} \quad for \ j = 0 \end{equation}$

\partial J ( θ ) \partial θ j = 1 m (\sum i = 1 m (h θ (x (i)) - y (i)) x (i) j + λ θ j) f o r j ⩾ 1

$\begin{equation} \frac{\partial J(\theta)}{\partial \theta_j} = \frac{1}{m} \left( {\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} + \lambda\theta_j} \right) \quad for \ j\geqslant 1 \end{equation}$

前向反馈（Feed Forward）

I n p u t L a y e r : a (1) H i d d e n L a y e r : z (2) a (2) O u t p u t L a y e r : z (3) a (3) = x (a d d a (1) 0) = Θ (1) a (1) = g (z (2)) (a d d a (2) 0) = Θ (2) a (2) = g (z (3)) = h θ (x)

$\begin{aligned} Input \ Layer:\quad a^{(1)} & = x \quad(add\ a_0^{(1)})\\ Hidden\ Layer:\quad z^{(2)} & = \Theta^{(1)}a^{(1)} \\ a^{(2)} & = g(z^{(2)}) \quad(add\ a_0^{(2)})\\ Output\ Layer:\quad z^{(3)} & = \Theta^{(2)} a^{(2)} \\ a^{(3)} & = g(z^{(3)}) = h_\theta(x) \end{aligned}$

3. 反向传播（Backpropagation）

执行步骤：
1.计算每一层输出结果与期望结果之间的差距

O u t p u t L a y e r : δ (3) j H i d d e n L a y e r : δ (2) j = a (3) j - y j = (Θ (2)) T δ (3) . * g' (z (2)) (r e m o v e δ (2) 0)

$\begin{aligned} Output\ Layer:\quad \delta_j^{(3)} & = a_j^{(3)} - y_j \\ Hidden\ Layer:\quad \delta_j^{(2)} & = (\Theta^{(2)})^T \delta^{(3)} .* g'(z^{(2)}) \quad (remove\ \delta_0^{(2)}) \end{aligned}$
2.计算每一层的累积梯度

Δ (l) = Δ (l) + δ (l + 1) (a (l)) T

$\Delta^{(l)} = \Delta^{(l)} + \delta^{(l+1)} (a^{(l)})^T$
其中l指层数
3.计算得到损失函数的梯度

\partial \partial Θ ( l ) i , j J (Θ) = D (l) i, j = 1 m Δ (l) i, j

$\frac{\partial}{\partial\Theta_{i,j}^{(l)}}J(\Theta) = D_{i,j}^{(l)} = \frac{1}{m}\Delta_{i,j}^{(l)}$
4.使用梯度下降法更新权值

Θ (l) i, j = Θ (l) i, j - \partial \partial Θ ( l ) i , j J (Θ)

$\Theta_{i,j}^{(l)} = \Theta_{i,j}^{(l)} - \frac{\partial}{\partial \Theta_{i,j}^{(l)}} J(\Theta)$

_Heisenberg_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记：神经网络

神经网络神经网络包含输入层、隐藏层和输出层三层（隐藏层可以有多层）在每个节点，我们选择一个函数，用以指示每个节点对输入的响应程度。在神经网络中，我们通常选择S型函数（如tanh, logistic function）来计算神经元的输出。以Logistic function为例1. 模型表示2. 前向反馈（Feeding Forward）Θ1,Θ2\Theta_1,\Theta_2分别是输
复制链接

扫一扫