避免过拟合的方法

最新推荐文章于 2022-01-06 11:17:26 发布

HongDouZhou233

最新推荐文章于 2022-01-06 11:17:26 发布

阅读量332

点赞数

文章标签：机器学习算法过拟合神经网络

本文链接：https://blog.csdn.net/HouDouZhou/article/details/96502159

版权

1. Weight Decay 权重衰减

等价于L2范数正则化。为模型损失函数添加惩罚项，新的损失函数为：
$\frac{\lambda}{2}||w||^2\\ w \larr w - \eta \frac{\partial L}{\partial w}\\$

$\lambda$ 一般是一个很小的值，如0.01，更新的权值可以转化为 $(1-\eta \lambda)w - \eta \frac{\partial l}{\partial w}$ ，即在更新权值前将其乘上一个接小于1的数，使权重的参数元素接近0。

2. Dropout 丢弃法

对某个隐层使用dropout，以概率p丢弃单元（有p的概率 $h_i$ 的输出会被置为0）。有些类似bagging的思想。相当于同时对一群共享参数的网络训练。训练时间更长，鲁棒性更好。

class dropout:
    def __init__(self, p):
        self.dropout_ratio = p
        self.mask = None
    
    # 第一种实现
    def forward1(self, x, train_flag=True):
        if train_flag:
            self.mask = np.random.rand(*x.shape) > self.dropout_ratio # 以p的概率丢弃
            return x * self.mask
        else:
            return x * (1 - self.dropout_ratio)   # 测试时乘1-p
    
    # 第二种实现
    def forward2(self, x, train_flag=True):
        if train_flag:
            self.mask = np.random.rand(*x.shape) > self.dropout_ratio # 以p的概率丢弃
            return x * self.mask /（1-p）      # inverted dropout 训练时除以1-p进行缩放
        else:
            return x                          # 预测时不进行操作
    
    def backward(self, dout):
		return dout * self.mask

由于dropout添加了随机性，如果不进行处理，训练和测试是的输出期望将不一致。z为random mask，表示神经网络中被置0的项。通过积分边缘化随机性：
$E_z(f(x,z)) = \int p(z)f(x,z)dz$
但是这种积分无法计算，因此，为了平均这种随机性，通过采样来逼近这个积分。对z多次采样，然后在测试时进行平均化。

dropout一般用在全连接层或卷积层。卷积层通常将feature map的均值调整为0而不是将所有输出均值调整为0。

3. Batch Normalization 批正规化

调整各层的激活值分布，使其拥有适当的广度，向神经网络中插入对数据进行正规化的层，以进行学习时的mini-batch为单位进行正规化，使数据的均值为0，方差为1，减小数据分布的偏向。

$\begin{aligned} \mu _B &\larr \frac{1}{m} \Sigma_{i=0}^m x_i \\ \sigma _B &\larr \frac{1}{m} \Sigma_{i=0}^m (x_i - \mu _B)^2 \\ \hat x_i &\larr \frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon}} \end{aligned}$

其中 $\mu_B, \sigma_B^2$ 为mini-batch的m个输入数据的均值和方差。
$y_i \larr \gamma \hat x_i + \beta$

接着对正规化的数据进行缩放和平移变换， $\gamma, \beta$ 为缩放参数和平移，是学习参数，一开始 $\gamma=1, \beta=0$ ，然后通过学习调整到合适的值。

Batch Norm的优点：

可以使学习快速进行（增大学习率）
不那么依赖初始值
抑制过拟合

dropout 和Batch Norm的思想都是在训练期间给网络添加一些随机性，以防止其过拟合数据，在测试时希望抵消随机性，提升模型的泛化能力。

4. Early Stop 提前终止

5. Data Augmentation 数据增强

6. 对于传统机器学习：

（1）从数据入手，获得更多的数据集

（2）降低模型复杂度

（3）正则化

（4）集成学习方法

HongDouZhou233

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫