1.1神经网络概述(Neural Network Overview)
表示第m层网络中节点相关的数,节点的集合被称为第m层网络。
1.2神经网络的表示 (Neural Network Representation)
隐藏层:在一个神经网络中,当你使用监督学习训练它时,训练集包含了输入x和目标输出y,所以术语隐藏层的含义是在训练集中,这些中间结点的准确值我们是不知道的,即我们看不到它们在训练集中应具有的值。
1.3计算一个神经网络的输出(Computing a Neural Network's output)
1.4多样本向量化(Vectorizing across multiple examples)
1.5向量化实现的解释(Justification for vectorized implementation)
1.6激活函数(Activation functions)
(除了输出层是一个二分类问题基本不会用到)
(几乎适用于所有场合, 值域位于-1和1之间)
sigmoid函数和tanh函数两者共同的缺点是,在z特别大或者特别小的情况下,导数的梯度或者函数的斜率会变得特别小,最后就会接近于0,导致降低梯度下降的速度。
修正线性单元的函数(ReLu)a=max(0,z)(如果不确定用哪个激活函数就用它或者Leaky ReLu)
(Leaky ReLu)a=max(0.01z,z)
选择激活函数的经验法则:如果输出是0、1值(二分类问题),则输出层选择sigmoid函数,然后其他的所有单元都选择Relu函数。这是很多激活函数的默认选择,如果在隐藏层上不确定使用哪个激活函数,那么通常会使用Relu激活函数。有时,也会使用tanh激活函数,但是Relu的一个优点是:当z是负值的时候,导数等于0。
1.7为什么需要非线性激活函数?(why need a nonlinear activation function)
不能在隐藏层用线性激活函数,可以用ReLU或者tanh或者leaky ReLU 或者其他的非线性激活函数,唯一可以用线性激活函数的通常就是输出层。
1.8激活函数的导数(Derivatives of activation functions)
1.9神经网络的梯度下载(Gradient descent for neural networks)
forward propagation:
back propagation