神经网络介绍_神经网络算法介绍文档-CSDN博客

本文链接：https://blog.csdn.net/iterate7/article/details/76034290

这篇博客介绍了神经网络的基础知识，从单个神经元开始，深入到神经网络模型的构建，特别是讨论了激活函数的重要作用。文章还提到了sigmoid函数作为激活函数时的导数特性，并给出了神经网络中层与层之间连接的数学表示。此外，博客还提供了中英文对照的关键术语，帮助读者更好地理解概念。

摘要由CSDN通过智能技术生成

概述

以监督学习为例，假设我们有训练样本集 $(x_i,y_i)$ ,那么神经网络算法能够提供一种复杂且非线性的假设模型 $h_{W,b}(x)$ , 它具有参数 $W,b$ , 可以以此参数来拟合我们的数据。
为了描述神经网络（neural networks），我们先从最简单的神经网络讲起，这个神经网络仅由一个“神经元”构成，以下就是这个“神经元”的图示：

这个“神经元”是一个以

x1,x2,x3 x 1 , x 2 , x 3 $x_1,x_2,x_3$ 及截距+1为输入值的运算单元，其输出为

hW,b(x)=f(WTx+b)=f(∑3i=1Wixi+bi) h W , b ( x ) = f ( W T x + b ) = f ( ∑ i = 1 3 W i x i + b i ) $h_{W,b}(x)=f(W^Tx+b)=f(\sum_{i=1}^3 W_ix_i+b_i)$ , 其中函数f被称为“激活函数”。在本教程中，我们选用sigmoid函数作为 激活函数

f(.) f ( . ) $f(.)$

f (z) = 1 1 + e x p ( - z )

$f(z) = \frac {1}{1+exp(-z)}$ 可以看出，这个单一“神经元”的输入输出映射关系其实就是一个逻辑回归（logistic regression）。
虽然本系列教程采用sigmoid函数，但你也可以选择双曲正切函数（tanh）：

f (z) = t a n h (z) = ( e z - e - z ) ( e z + e - z )

$f(z)= tanh(z) = \frac{(e^z-e^{-z})}{(e^z+e^{-z})}$
以下分别是sigmoid及tanh的函数图像

这里写图片描述

tanh(z) t a n h ( z ) $tanh(z)$ 函数是sigmoid函数的一种变体，它的取值范围是[-1,1],而不是sigmoid函数的[0,1]。

注意，我们用单独的参数b来表示截距。
最后要说明的是，有一个属性我们以后会经常用到：如果选择 $f(z)=\frac{1}{1+exp(-z)}$ 也就是sigmoid函数，那么它的导数就是

$f' (z) = f (z) (1 - f (z))$ $f'(z) = f(z)(1-f(z))$ (如果选择tanh函数，那它的导数就是
$f' (z) = 1 - (f (z)) 2 ）$ $f'(z) = 1-(f(z))^2）$ , 你可以根据sigmoid（或tanh）函数的定义自行推导这个等式。

神经网络模型

所谓神经网络就是将许多个单一“神经元”联结在一起，这样，一个“神经元”的输出就可以是另一个“神经元”的输入。例如，下图就是一个简单的神经网络：

我们使用圆圈来表示神经网络的输入，标上“+1”的圆圈被称为 偏值节点，也就是截距项。神经网络最左边的一层叫做 输入层，最右边的一层叫做 输出层，本例中输出层只有一个节点。中间所有节点组成的一层叫做 隐藏层（hidden layer），因为我们不能在训练样本集中观测到它们的值。同时可以看到，以上神经网络的例子中有3个 输入单元（偏值单元不计在内），3个 隐藏单元及一个 输出单元。

下面将列出诸多的公式，这对于表达神经网络至关重要。如有可能深刻理解和尽可能的记住，对理解问题大有裨益。

我们用 $n_l$ 来表示网络的层次，本例中 $n_l=3$ , 我们将第 $l$ 层记为 $L_l$ ，于是 $L_1$ 是输入层，输出层是 $L_{nl}$ 。本例神经网络有参数

(W, b) = (W (1), b (1), W (2), b (2))

$(W,b)=(W^{(1)},b^{(1)},W^{(2)},b^{(2)})$
其中

W(l)ij W i j ( l ) $W_{ij}^{(l)}$ 代表第

l l $l$ 层第j单元与第

(l + 1)

$(l+1)$ 层第i单元之间的联接参数，其实就是连接线上的权重。只是要注意第一个标号是下一层，后面我们会发现这样定义有一定的好处。

b(l)i b i ( l ) $b_{i}^{(l)}$ 是第

l+1 l + 1 $l+1$ 层第i单元的偏值项。因此在本例中

W (1) \in R 3 \times 3, W (2) \in R 1 \times 3

$W^{(1)}\in \mathfrak{R^{3\times 3}}, W^{(2)}\in \mathfrak{R^{1\times 3}}$
注意，没有其他单元连向偏值单元，因为他们总是输出+1。同时，我们用

sl s l $s_l$ 表示第

l l $l$ 层的节点数，偏值单元不计在内。
我们用

a_{i}^{(l)}

$a_{i}^{(l)}$ 表示第l层第i单元的 激活值。当

l=1 l = 1 $l=1$ 时，

a(l)i=xi a i ( l ) = x i $a_{i}^{(l)}=x_i$ ，也就是第i个输入值。对于给定参数集合

W,b W , b $W,b$ ，我们的神经网络就可以按照函数

hW,b(x) h W , b ( x ) $h_{W,b}(x)$ 来计算输出结果。本例神经网络的计算步骤如下：

a (2) 1 = f (W (1) 11 x 1 + W (1) 12 x 2 + W (1) 13 x 3 + b (1) 1)

$a_{1}^{(2)}=f(W_{11}^{(1)}x1+W_{12}^{(1)}x2+W_{13}^{(1)}x3+b_{1}^{(1)})$

a (2) 2 = f (W (1) 21 x 1 + W (1) 22 x 2 + W (1) 23 x 3 + b (1) 2)

$a_{2}^{(2)}=f(W_{21}^{(1)}x1+W_{22}^{(1)}x2+W_{23}^{(1)}x3+b_{2}^{(1)})$

a (2) 3 = f (W (1) 31 x 1 + W (1) 32 x 2 + W (1) 33 x 3 + b (1) 3)

$a_{3}^{(2)}=f(W_{31}^{(1)}x1+W_{32}^{(1)}x2+W_{33}^{(1)}x3+b_{3}^{(1)})$

h W, b (x) = a (3) 1 = f (W (2) 11 a (2) 1 + W (2) 12 a (2) 2 + W (2) 13 a (2) 3 + b (2) 1)

$h_{W,b}(x)=a_{1}^{(3)} = f(W_{11}^{(2)}a_{1}^{(2)}+W_{12}^{(2)}a_{2}^{(2)}+W_{13}^{(2)}a_{3}^{(2)}+b_{1}^{(2)})$

我们用 $z_{i}^{(l)}$ 表示第l层第i单元输入加权和（包括偏置单元），比如， $z_{i}^{(2)}=\sum_{j=1}^{n}W_{ij}^{(1)}x_j+b_{i}^{(1)}$ ，则 $a_{i}^{(l)}=f(z_{i}^{(l)})$ 。
这样我们就可以得到一种更简洁的表示法。这里我们将激活函数 $f(.)扩展为用向量来表示$ ，即 $f([z_1,z_2,z_3])=[f(z_1),f(z_2),f(z_3)]$ ，那么，上面的等式可以更简洁的表示为：

z (2) = W (1) x + b (1)

$z^{(2)}=W^{(1)}x+b^{(1)}$

a (2) = f (z (2))

$a^{(2)}=f(z^{(2)})$

z (3) = W (2) a (2) + b (2)

$z^{(3)}=W^{(2)}a^{(2)}+b^{(2)}$

h W, b (x) = a (3) 1 = f (z (3))

$h_{W,b}(x)=a_{1}^{(3)} =f(z^{(3)})$
我们将上面的计算步骤叫做 前向传播（forward propagation）。回想一下，之前我们用

a(1)=x a ( 1 ) = x $a^{(1)}=x$ 表示输入层的激活值，那么给定第l层的激活值

a(l) a ( l ) $a^{(l)}$ 后，第l+1层的激活值

a(l+1) a ( l + 1 ) $a^{(l+1)}$ 就可以按照下面步骤计算得到：

z (l + 1) = W (l) a (l) + b (l)

$z^{(l+1)}=W^{(l)}a^{(l)}+b^{(l)}$

a (l + 1) = f (z (l + 1)

$a^{(l+1)}=f(z^{(l+1})$
将参数矩阵化，使用矩阵-向量运算方式，我们就可以利用线性代数的优势对神经网络进行快速求解。
目前为止，我们讨论了一种神经网络，我们也可以构建另一种结构的神经网络（这里结构指的是神经元之间的联接模式），也就是包含多个隐藏层的神经网络。最常见的一个例子是

nl n l $n_l$ 层的神经网络，第 1 层是输入层，第

nl n l $n_l$ 层是输出层，中间的每个层

l l $l$ 与层

l+1 l + 1 $l+1$ 紧密相联。这种模式下，要计算神经网络的输出结果，我们可以按照之前描述的等式，按部就班，进行前向传播，逐一计算第

L2 L 2 $L_2$ 层的所有激活值，然后是第

L3 L 3 $L_3$ 层的激活值，以此类推，直到第

Lnl L n l $L_{n_l}$ 层。这是一个前馈神经网络的例子，因为这种联接图没有闭环或回路。
神经网络也可以有多个输出单元。比如，下面的神经网络有两层隐藏层：

L2 L 2 $L_2$ 及

L3 L 3 $L_3$ ，输出层

L4 L 4 $L_4$ 有两个输出单元。

要求解这样的神经经网络，需要样本集

(x(i),y(i)) ( x ( i ) , y ( i ) ) $(x^{(i)}, y^{(i)})$ ，其中

y(i)∈R2 y ( i ) ∈ ℜ 2 $y^{(i)} \in \Re^2$ 。如果你想预测的输出是多个的，那这种神经网络很适用。（比如，在医疗诊断应用中，患者的体征指标就可以作为向量的输入值，而不同的输出值

yi y i $y_i$ 可以表示不同的疾病存在与否。）

中英文对照

neural networks 神经网络
activation function 激活函数
hyperbolic tangent 双曲正切函数
bias units 偏置项
activation 激活值
forward propagation 前向传播
feedforward neural network 前馈神经网络(参照Mitchell的《机器学习》的翻译)