深度学习 | 深度前馈网络

最新推荐文章于 2023-06-26 21:25:04 发布

_Summer tree

最新推荐文章于 2023-06-26 21:25:04 发布

阅读量428

点赞数

分类专栏：深度学习文章标签：深度学习前馈网络隐藏层

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NGUever15/article/details/99672505

版权

深度学习专栏收录该内容

40 篇文章 7 订阅

订阅专栏

深度前馈网络

1 学习XOR
2 基于梯度的学习
3 隐藏单元
- 整流线性单元及其扩展
4 架构设计
5 反向传播和其他微分算法
6 历史小计

Reference[原文]: Joselynzhao.top & 夏木青 | 深度前馈网络

前向

信息流过 x 的函数，流经用于定义 f 的中间计算过程，最终到达输出 y。

网络

前馈神经网络被称作网络 (network) 是因为它们通常用许多不同函数复合在一起来表示。

隐藏层

训练数据并没有给出这些层中的每一层所需的输出，所以这些层被称为隐藏层 (hidden layer)。

神经

这些网络被称为神经网络是因为它们或多或少地受到神经科学的启发。
我们最好将前馈神经网络想成是为了实现统计泛化而设计出的函数近似机器，它偶尔从我们了解的大脑中提取灵感但是并不是大脑功能的模型。

1 学习XOR

XOR 函数(‘‘异或’’ 逻辑)是两个二进制值 x1 和 x2 的运算。这些二进制值中恰好有一个为 1 时，XOR 函数返回值为 1。其余情况下返回值为 0。
在这里插入图片描述

在这里插入图片描述

2 基于梯度的学习

代价函数

深度神经网络设计中的一个重要方面是代价函数的选择。幸运的是，神经网络的代价函数或多或少是和其他参数模型例如线性模型的代价函数相同的

输出单元

代价函数的选择与输出单元的选择紧密相关。大多数时候，我们简单地使用数据分布和模型分布间的交叉熵。选择怎样表示输出决定了交叉熵函数的形式。

用于高斯输出分布的线性单元

在这里插入图片描述

基于伯努利输出分布的 sigmoid 单元

Bernoulli 分布仅需一个单独的数来定义，神经网络只需要预测 P (y = 1 | x) 即可。为了使这个数是有效的概率，它必须处在区间 [0, 1] 中。满足这个限制需要一些细致的设计工作。假设我们打算使用线性单元，并且通过阈值来限制它成为一个有效的概率:
在这里插入图片描述

用于multinouli 输出分布的softmax单元

3 隐藏单元

整流线性单元及其扩展

整流线性单元易于优化，因为它们和线性单元非常类似。线性单元和整流线性单元的唯一区别在于整流线性单元在其一半的定义域上输出为零。

它的梯度不仅大而且一致
整流线性单元通常用于仿射变换之上:
在这里插入图片描述

4 架构设计

在这里插入图片描述

通用近似定理 (universal approximation theorem)(Hornik et al., 1989; Cybenko, 1989) 表明，一个前馈神经网络如果具有线性输出层和至少一层具有任何一种 ‘‘挤压’’ 性质的激活函数(例如 logistic sigmoid 激活函数)的隐藏层，只要给予网络足够数量的隐藏单元，它可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的 Borel 可测函数。

分层次：更多的更简单的函数耦合在一起更好。
在这里插入图片描述

跳跃连接：
残差网络：防止梯度消失

用稀疏连接代替全连接

5 反向传播和其他微分算法

在这里插入图片描述

6 历史小计

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

_Summer tree 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。