前馈神经网络基础教程

@(深度学习)[神经网络]
本文主要参考链接
#1. 前馈神经网络基础教程
##1.1. 概述
以监督学习为例,假设我们有训练样本集 ( x ( i ) , y ( i ) ) (x(^i),y(^i)) (x(i),y(i)),那么神经网络算法能够提供一种负责且非线性的假设模型 h W , b ( x ) h_{W,b}(x) hW,b(x),它具有参数 W , b W,b W,b,可以通过调整此参数来拟合我们的数据。

为了描述神经网络,我们先从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,以下即是这个“神经元”的图示:
单个神经元示意图

这个“神经元”是一个以 x 1 , x 2 , x 3 x_1, x_2, x_3 x1,x2,x3及截距+1为输入值的运算单元,其输出为 h W , b ( x ) = f ( W T X ) = f ( ∑ i = 1 3 W i x i + b ) h_{W,b}(x)=f(W^TX)=f(\sum_{i=1}^{3}W_ix_i+b) hW,b(x)=f(WTX)=f(i=13Wixi+b),其中函数 f : R ⟼ R f:\mathscr{R}\longmapsto \mathscr{R} f:RR被称为激活函数。注意,有的教程中用 x 0 = 1 x_0=1 x0=1来表示截距+1。在本教程中,我们选用sigmoid函数作为激活函数 f ( ⋅ ) f(\cdot) f()
f ( z ) = 1 1 + e x p ( − z ) f(z)=\frac{1}{1+exp(-z)} f(z)=1+exp(z)1
可以看出,这个单一“神经元”的输入输出映射关系其实就是一个逻辑回归(logistic regression)。
##1.2. 神经网络模型
所谓神经网络就是将许多个单一“神经元”联结在一起,这样,一个“神经元”的输出就可以是另一个“神经元”的输入。下图是一个简单的神经网络例子:
这里写图片描述
我们使用圆圈来表示神经网络的输入,标上“+1”的圆圈被称为偏置节点,也就是截距项。神经网络最左边的一层叫做输入层,最右边的一层叫做输出层(在本例中,输出层只有一个节点)。中间所有节点组成的一层叫做隐藏层,因为我们不能在训练样本集中观测到它们的值。同时可以看到,以上神经网络的例子中有3个输入单元(偏置单元不计在内),3个隐藏单元以及1个输出单元。

我们用 n l n_l nl来表示网络的层数,本例中 n l = 3 n_l=3 nl=3,记第 l l l层记为 L l L_l Ll,于是 L 1 L_1 L1是输入层, L n l L_{n_l} Lnl是输出层。本例神经网络有参数 ( W , b ) = ( W ( 1 ) , b ( 1 ) , W ( 2 ) , b ( 2 ) ) (W,b)=(W^{(1)},b^{(1)},W^{(2)},b^{(2)}) (W,b)=(W(1),b(1),W(2),b(2)),其中 W i j ( l ) W_{ij}^{(l)} Wij(l)(下面的式子中用到)是第 l l l层第 j j j单元与第 l + 1 l+1 l+1层第 i i i单元之间的联接参数(连接线上的权重,从 j j j i i i), b i ( l ) b_i^{(l)} bi(l)是第 l + 1 l+1 l+1层第 i i i单元的偏置项。因此在本例中, W ( 1 ) ∈ R 3 × 3 W^{(1)}\in\mathscr{R}^{3\times3} W(1)R3×3 W ( 2 ) ∈ R 1 × 3 W^{(2)}\in\mathscr{R}^{1\times3} W(2)R1×3。注意,偏置单元没有输入,是因为他们总是输出+1。同时,我们用 s l s_l sl表示第 l l l层的结点数(不包括偏置单元)。

我们用 a i ( l ) a_i^{(l)} ai(l)表示第 l l l层第 i i i单元的激活值的(输出值)。当 l = 1 l=1 l=1时, a i ( l ) = x i a_i^{(l)}=x_i ai(l)=xi,也就是输入层的第 i i i个输入值(输入值的第 i i i个特征)。对于给定参数集合 W , b W,b W,b,我们的神经网络就可以按照 h W , b ( x ) h_{W,b}(x) hW,b(x)来计算输出结果。本例中神经网络的计算步骤如下:
\begin{align}
a_1{(2)}&=f(W_{11}{(1)}x_1+W_{12}{(1)}x_2+W_{13}{(1)}x_3+b_1^{(1)})\
a_2{(2)}&=f(W_{21}{(1)}x_1+W_{22}{(1)}x_2+W_{23}{(1)}x_3+b_2^{(1)})\
a_3{(2)}&=f(W_{31}{(1)}x_1+W_{32}{(1)}x_2+W_{33}{(1)}x_3+b_3^{(1)})\
h_{W,b}(x)&=a_1{(3)}=f(W_{11}{(2)}a_1{(2)}+W_{12}{(2)}a_2{(2)}+W_{13}{(2)}a_3{(2)}+b_1{(2)})
\end{align}
我们用 z i ( l ) z_i^{(l)} zi(l)表示第 l l l层第 i i i单元输入加权和(包括偏置单元),比如, z i ( 2 ) = ∑ j = 1 n W i j ( 1 ) x j + b i ( 1 ) z_i^{(2)}=\sum_{j=1}^nW_{ij}^{(1)}x_j+b_i^{(1)} zi(2)=j=1nWij(1)xj+bi(1) a i ( 2 ) = f ( z i ( 2 ) ) a_i^{(2)}=f(z_i^{(2)}) ai(2)=f(zi(2))

我们将激活函数 f ( ⋅ ) f(\cdot) f()扩展为向量形式: f ( [ z 1 , z 2 , z 3 ] ) = [ f ( z 1 ) , f ( z 2 ) , f ( z 3 ) ] f([z_1,z_2,z_3])=[f(z_1),f(z_2),f(z_3)] f([z1,z2,z3])=[f(z1),f(z2),f(z3)],那么,上面的等式可以更简洁地表示为:
\begin{align}
z{(2)}&=W{(1)}x+b^{(1)}\
a{(2)}&=f(z{(2)})\
z{(3)}&=W{(2)}a{(2)}+b{(2)}\
h_{W,b}(x)&=a{(3)}=f(z{(3)})\
\end{align}
我们将上面的计算步骤叫做前向传播。给定第 l l l层的激活值 a ( l ) a^{(l)} a(l)后,第 l + 1 l+1 l+1层的激活值 a ( l + 1 ) a^{(l+1)} a(l+1)就可以按照下面步骤计算得到:
\begin{align}
z{(l+1)}&=W{(l)}a{(l)}+b{(l)}\
a{(l+1)}&=f(z{(l+1)})\
\end{align}
将参数矩阵化,使用矩阵-向量运算方式,我们就可以利用线性代数的优势对神经网络进行快速求解。
神经网络也可以由多个隐藏层和多个输出单元,例如下图所示:
这里写图片描述
像上图这样的网络,叫做前馈神经网络,这种联接图没有闭环或回路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值