批量归一化和残差网络及文本分类

最新推荐文章于 2023-02-01 12:20:44 发布

qq_755700504

最新推荐文章于 2023-02-01 12:20:44 发布

阅读量527

点赞数

文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36918480/article/details/104506510

版权

批量归一化和残差网络

对输入的标准化（浅层模型）
处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
标准化处理输入数据使各个特征的分布相近

批量归一化（深度模型）
利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。

1.对全连接层做批量归一化
位置：全连接层中的仿射变换和激活函数之间。
全连接：
批量归一化：
这⾥ϵ > 0是个很小的常数，保证分母大于0

引入可学习参数：拉伸参数γ和偏移参数β。若和，批量归一化无效。

2.对卷积层做批量归⼀化
位置：卷积计算之后、应⽤激活函数之前。
如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数。计算：对单通道，batchsize=m,卷积计算输出=pxq 对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。

3.预测时的批量归⼀化
训练：以batch为单位,对每个batch计算均值和方差。
预测：用移动平均估算整个训练数据集的样本均值和方差。

收敛性分析

只考虑在函数为凸函数, 且最小值点上时的收敛速度：

令为第次迭代后的值，表示到最小值点的距离，由 :

两边除以 , 有：

代入更新方程 , 得到：

当时，有:

预处理（Heissan阵辅助梯度下降）
梯度下降与线性搜索（共轭梯度法）
随机梯度下降
随机梯度下降参数更新
对于有个样本对训练数据集，设是第个样本的损失函数, 则目标函数为:

其梯度为:

使用该梯度的一次更新的时间复杂度为
随机梯度下降更新公式 :
代码：
def train_ch7(optimizer_fn, states, hyperparams, features, labels,
batch_size=10, num_epochs=2):
# 初始化模型
net, loss = d2l.linreg, d2l.squared_loss

w = torch.nn.Par

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
批量归一化和残差网络及文本分类

批量归一化和残差网络对输入的标准化（浅层模型）处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近批量归一化（深度模型）利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。1.对全连接层做批量归一化位置：全连接层中的仿射变换和激活函数之间。全连接：批量归一化：这⾥ϵ > 0...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。