训练小技巧

最新推荐文章于 2022-01-24 15:40:16 发布

Bai丁

最新推荐文章于 2022-01-24 15:40:16 发布

阅读量195

点赞数

分类专栏： AI小知识系列文章标签：深度学习机器学习 python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stardustyu/article/details/103993608

版权

AI小知识系列专栏收录该内容

9 篇文章 2 订阅

订阅专栏

文章目录

1、参数初始化
2、数据预处理方式
3、梯度裁剪

1、参数初始化

几种方式,结果差不多。但是一定要做。否则可能会减慢收敛速度，影响收敛结果，甚至造成Nan等一系列问题。

优秀的初始化应该使得各层的激活值和状态梯度的方差在传播过程中的方差保持一致。不然更新后的激活值方差发生改变，造成数据的不稳定。

Xavier初始化 :

条件：正向传播时，激活值的方差保持不变；反向传播时，关于状态值的梯度的方差保持不变。
论文：http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf
理论方法：

$\sim U[-\frac{\sqrt{6}}{\sqrt{n_i + n_{i+1}}},\frac{\sqrt{6}}{\sqrt{n_i + n_{i+1}}}]$

假设激活函数关于0对称，且主要针对于全连接神经网络。适用于tanh和sigmoid。

He初始化：

条件：正向传播时，状态值的方差保持不变；反向传播时，关于激活值的梯度的方差保持不变。
论文：https://arxiv.org/abs/1502.01852
理论方法
- 适用于ReLU的初始化方法：
$\sim U[0,\sqrt{\frac{2}{\hat{n}_i}}]$
- 适用于Leaky ReLU的初始化方法：
$\sim U[0,\sqrt{\frac{2}{(1+\alpha^2)\hat{n}_i}}]$

其中
$\hat{n}_i = h_i * w_i * d_i \\ h_i,w_i分别表示卷积层中卷积核的高和宽 \\ d_i表示当前层卷积核的个数$

具体方法

下面的n_in为网络的输入大小，n_out为网络的输出大小，n为n_in或(n_in+n_out)/2

uniform均匀分布初始化：
```
w = np.random.uniform(low=-scale, high=scale, size=[n_in,n_out])
```
- Xavier初始法，适用于普通激活函数(tanh,sigmoid)：scale = np.sqrt(3/n)
- He初始化，适用于ReLU：scale = np.sqrt(6/n)
normal高斯分布初始化：
```
w = np.random.randn(n_in,n_out) * stdev # stdev为高斯分布的标准差，均值设为0
```
- Xavier初始法，适用于普通激活函数 (tanh,sigmoid)：stdev = np.sqrt(n)
- He初始化，适用于ReLU：stdev = np.sqrt(2/n)
svd初始化：对RNN有比较好的效果。参考论文：https://arxiv.org/abs/1312.6120

技巧

正确初始化最后一层的权重。如果回归一些平均值为50的值，则将最终偏差初始化为50。如果有一个比例为1:10的不平衡数据集，请设置对数的偏差，使网络预测概率在初始化时为0.1。正确设置这些可以加速模型的收敛。

2、数据预处理方式

zero-center

这个挺常用的.

X -= np.mean(X, axis = 0)   # zero-center
X /= np.std(X, axis = 0)    # normalize

PCA whitening

这个用的比较少.

3、梯度裁剪

实现方法见**pytorch小操作**

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
训练小技巧

文章目录1、参数初始化2、数据预处理方式3、梯度裁剪1、参数初始化几种方式,结果差不多。但是一定要做。否则可能会减慢收敛速度，影响收敛结果，甚至造成Nan等一系列问题。优秀的初始化应该使得各层的激活值和状态梯度的方差在传播过程中的方差保持一致。不然更新后的激活值方差发生改变，造成数据的不稳定。Xavier初始化 :条件：正向传播时，激活值的方差保持不变；反向传播时，关于状态值的梯度的方...
复制链接

扫一扫

专栏目录

Bai丁 CSDN认证博客专家 CSDN认证企业博客

码龄6年

45: 原创

7万+: 周排名

74万+: 总排名

11万+: 访问

: 等级

1596: 积分

96: 粉丝

128: 获赞

17: 评论

636: 收藏

私信

关注

热门文章

分类专栏

最新评论

对抗样本（一）以综述入门
楞年。: 是不是要最大化损失函数呢？
对抗样本（一）以综述入门
wakababu: 请问博主，One-step Target Class Method (OTCM)拓展到目标攻击后的生成对抗目标的公式中为什么是-ϵsign，可以理解为目标类别不太可能是真实类别，所以损失函数大多为负，负负得正后，为增加目标类别呢？
Windows下安装Tensorflow-gpu（踩坑无数）
ToptimisticX: 标记下可能出现的问题，环境变量加%的部分可能会导致一些路径出问题，建议直接写地址就行，还有地址后多余的分号最好删除，最好不要出现一行多个分号，这导致我后期下载tensorflow使不能识别我的环境位置下载到了系统默认的路径，而不是我环境所在位置，以及powershell打不开。
对抗样本（一）以综述入门
piggy_pig: 谢谢啦
对抗样本（一）以综述入门
Bai丁: https://arxiv.org/pdf/1605.01775.pdf

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。