深度学习 | 训练网络trick——mixup

最新推荐文章于 2024-06-23 09:35:55 发布

yuanCruise

最新推荐文章于 2024-06-23 09:35:55 发布

阅读量4.9k

点赞数 4

分类专栏：深度学习Trick

本文链接：https://blog.csdn.net/qiu931110/article/details/88072825

版权

深度学习Trick 专栏收录该内容

16 篇文章 4 订阅

订阅专栏

1.mixup原理介绍

mixup 论文地址
mixup是一种非常规的数据增强方法，一个和数据无关的简单数据增强原则，其以线性插值的方式来构建新的训练样本和标签。最终对标签的处理如下公式所示，这很简单但对于增强策略来说又很不一般。

$\left ( x_{i},y_{i} \right )$ ， $\left ( x_{j},y_{j} \right )$ 两个数据对是原始数据集中的训练样本对（训练样本和其对应的标签）。其中 $\lambda$ 是一个服从B分布的参数, $\lambda\sim Beta\left( \alpha ,\alpha \right )$ 。Beta分布的概率密度函数如下图所示，其中 $\alpha \in \left [ 0,+\infty \right ]$

因此 $\alpha$ 是一个超参数，随着 $\alpha$ 的增大，网络的训练误差就会增加，而其泛化能力会随之增强。而当 $\alpha \rightarrow \infty$ 时，模型就会退化成最原始的训练策略。

2.mixup的代码实现

如下代码所示，实现mixup数据增强很简单，其实我个人认为这就是一种抑制过拟合的策略，增加了一些扰动，从而提升了模型的泛化能力。

def get_batch(x, y, step, batch_size, alpha=0.2):
    """
    get batch data
    :param x: training data
    :param y: one-hot label
    :param step: step
    :param batch_size: batch size
    :param alpha: hyper-parameter α, default as 0.2
    :return:
    """
    candidates_data, candidates_label = x, y
    offset = (step * batch_size) % (candidates_data.shape[0] - batch_size)

    # get batch data
    train_features_batch = candidates_data[offset:(offset + batch_size)]
    train_labels_batch = candidates_label[offset:(offset + batch_size)]

    # 最原始的训练方式
    if alpha == 0:
        return train_features_batch, train_labels_batch
    # mixup增强后的训练方式
    if alpha > 0:
        weight = np.random.beta(alpha, alpha, batch_size)
        x_weight = weight.reshape(batch_size, 1, 1, 1)
        y_weight = weight.reshape(batch_size, 1)
        index = np.random.permutation(batch_size)
        x1, x2 = train_features_batch, train_features_batch[index]
        x = x1 * x_weight + x2 * (1 - x_weight)
        y1, y2 = train_labels_batch, train_labels_batch[index]
        y = y1 * y_weight + y2 * (1 - y_weight)
        return x, y

3.mixup增强效果展示

import matplotlib.pyplot as plt
import matplotlib.image as Image
import numpy as np

im1 = Image.imread(r"C:\Users\Daisy\Desktop\1\xyjy.png")
im2 = Image.imread(r"C:\Users\Daisy\Desktop\1\xyjy2.png")
for i in range(1,10):
    lam= i*0.1
    im_mixup = (im1*lam+im2*(1-lam))
    plt.subplot(3,3,i)
    plt.imshow(im_mixup)
plt.show()

yuanCruise

关注

4
点赞
踩
37

收藏

觉得还不错? 一键收藏
打赏
3
评论
深度学习 | 训练网络trick——mixup

1.mixup原理介绍mixup 论文地址mixup是一种非常规的数据增强方法，一个和数据无关的简单数据增强原则，其以线性插值的方式来构建新的训练样本和标签。最终对标签的处理如下公式所示，这很简单但对于增强策略来说又很不一般。(xi,yi)\left ( x_{i},y_{i} \right )(xi,yi)，(xj,yj)\left ( x_{j},y_{j} \right )(xj...
复制链接

扫一扫