《深度学习》读书笔记——第六章 深度前馈网络

第六章 深度前馈网络

定义:模型的输出和模型本身之间没有反馈连接。(例如LSTM就包含反馈连接)

特点:深度学习中使用了非线性函数来描述特征,放弃了训练问题的凸性,但是可以在一个非常广泛的函数族里搜索,并且可以通过将知识编码进网络来帮助泛化。

  • 非凸性导致随机梯度下降没有全局收敛性的保证,并且对参数的初始值很敏感

代价函数

大多数神经网络使用最大似然来训练,即负的对数似然,与训练数据和模型分布间的交叉熵等价。
J ( θ ) = − E x , y ∼ p ^ d a t a l o g   p m o d e l ( y ∣ x ) J(\theta)=-\mathbb{E}_{x,y\sim \hat{p}_{data}}log\space p_{model}(y|x) J(θ)=Ex,yp^datalog pmodel(yx)

  • 如果 p ^ m o d e l ( y ∣ x ) = N ( y ; f ( x ; θ ) , I ) \hat{p}_{model}(y|x)=\mathcal{N}(y;f(x;\theta),I) p^model(yx)=N(y;f(x;θ),I), 那么最大似然等价于均方误差代价。这种等价性并不要求 f ( x ; θ ) f(x;\theta) f(x;θ)用于预测高斯分布的均值。
    J ( θ ) = 1 2 E x , y ∼ p ^ d a t a ∣ ∣ y − f ( x ; θ ) ∣ ∣ 2 + c o n s t J(\theta)=\frac{1}{2}\mathbb{E}_{x,y\sim\hat{p}_{data}}||y-f(x;\theta)||^2+const J(θ)=<

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值