第六章 深度前馈网络
文章目录
定义:模型的输出和模型本身之间没有反馈连接。(例如LSTM就包含反馈连接)
特点:深度学习中使用了非线性函数来描述特征,放弃了训练问题的凸性,但是可以在一个非常广泛的函数族里搜索,并且可以通过将知识编码进网络来帮助泛化。
- 非凸性导致随机梯度下降没有全局收敛性的保证,并且对参数的初始值很敏感。
代价函数
大多数神经网络使用最大似然来训练,即负的对数似然,与训练数据和模型分布间的交叉熵等价。
J ( θ ) = − E x , y ∼ p ^ d a t a l o g p m o d e l ( y ∣ x ) J(\theta)=-\mathbb{E}_{x,y\sim \hat{p}_{data}}log\space p_{model}(y|x) J(θ)=−Ex,y∼p^datalog pmodel(y∣x)
-
如果 p ^ m o d e l ( y ∣ x ) = N ( y ; f ( x ; θ ) , I ) \hat{p}_{model}(y|x)=\mathcal{N}(y;f(x;\theta),I) p^model(y∣x)=N(y;f(x;θ),I), 那么最大似然等价于均方误差代价。这种等价性并不要求 f ( x ; θ ) f(x;\theta) f(x;θ)用于预测高斯分布的均值。
J ( θ ) = 1 2 E x , y ∼ p ^ d a t a ∣ ∣ y − f ( x ; θ ) ∣ ∣ 2 + c o n s t J(\theta)=\frac{1}{2}\mathbb{E}_{x,y\sim\hat{p}_{data}}||y-f(x;\theta)||^2+const J(θ)=<