全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴
深度前馈网络(deep feedforward network),也叫作前馈神经网络(feedforward neural network)或者多层感知机(multilayer perceptron, MLP),是典型的深度学习模型。
一、实例:学习XOR
可以根据这篇文章中的视频来进行学习异或问题:白板推导系列笔记(二十三)-前馈神经网络
二、基于梯度的学习
线性模型和神经网络的最大区别,在于神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。迭代的、基于梯度的优化,仅仅使得代价函数达到一个非常小的值;而不是像用于训练线性回归模型的线性方程求解器,或者用于训练逻辑回归或 SVM 的凸优化算法那样保证全局收敛。
(一)代价函数
神经网络的代价函数或多或少是和其他的参数模型例如线性模型的代价函数相同的。
- 最大似然学习条件分布
- 学习条件统计量
(二)输出单元
- 用于高斯输出分布的线性单元
- 用于 Bernoulli 输出分布的 sigmoid 单元(使用 sigmoid 输出单元结合最大似然来实现)
- 用于 Multinoulli 输出分布的 softmax 单元(使用最大化对数似然训练)
三、隐藏单元
(一)整流线性单元
整流线性单元是隐藏单元极好的默认选择。整流线性单元使用激活函数 g ( z ) = max { 0 , z } g(z) = \max\{0, z\} g(z)=max{ 0,z}。
整流线性单元易于优化,因为它们和线性单元非常类似。线性单元和整流线性单元的唯一区别在于整流线性单元在其一半的定义域上输出为零。
整流线性单元通常作用于仿射变换之上: h = g ( W T x + b ) h=g(W^T x+b) h=