花书读书笔记(五)-深度前馈网络

本文是《深度学习》读书笔记的第五部分,主要介绍了深度前馈网络(深度学习模型的一种)。内容涵盖学习XOR实例、基于梯度的学习(代价函数、输出单元)、隐藏单元(整流线性单元、logistic sigmoid与双曲正切函数)、架构设计以及反向传播算法的原理。通过实例和理论解释,帮助读者理解多层感知机的工作机制。
摘要由CSDN通过智能技术生成

全部笔记的汇总贴:《深度学习》花书-读书笔记汇总贴

深度前馈网络(deep feedforward network),也叫作前馈神经网络(feedforward neural network)或者多层感知机(multilayer perceptron, MLP),是典型的深度学习模型。

一、实例:学习XOR

在这里插入图片描述
可以根据这篇文章中的视频来进行学习异或问题:白板推导系列笔记(二十三)-前馈神经网络

二、基于梯度的学习

线性模型和神经网络的最大区别,在于神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。迭代的、基于梯度的优化,仅仅使得代价函数达到一个非常小的值;而不是像用于训练线性回归模型的线性方程求解器,或者用于训练逻辑回归或 SVM 的凸优化算法那样保证全局收敛。

(一)代价函数

神经网络的代价函数或多或少是和其他的参数模型例如线性模型的代价函数相同的。

  1. 最大似然学习条件分布
  2. 学习条件统计量

(二)输出单元

  1. 用于高斯输出分布的线性单元
  2. 用于 Bernoulli 输出分布的 sigmoid 单元(使用 sigmoid 输出单元结合最大似然来实现)
  3. 用于 Multinoulli 输出分布的 softmax 单元(使用最大化对数似然训练)

三、隐藏单元

(一)整流线性单元

整流线性单元是隐藏单元极好的默认选择。整流线性单元使用激活函数 g ( z ) = max ⁡ { 0 , z } g(z) = \max\{0, z\} g(z)=max{ 0,z}

整流线性单元易于优化,因为它们和线性单元非常类似。线性单元和整流线性单元的唯一区别在于整流线性单元在其一半的定义域上输出为零。

整流线性单元通常作用于仿射变换之上: h = g ( W T x + b ) h=g(W^T x+b) h=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值