【论文阅读笔记】CutMix:数据增强

目录

1.几种数据增强的区别:Mixup,Cutout,CutMix

2.CutMix的原理【与代码一同食用更好消化】

3.论文中的一些讨论内容

4.看看代码


看论文的原因:学习mixup的时候发现的这篇论文,读读看!

论文地址:https://arxiv.org/abs/1905.04899v2

1.几种数据增强的区别:Mixup,Cutout,CutMix

  • Mixup:将随机的两张样本按比例混合,分类的结果按比例分配;
  • Cutout:随机的将样本中的部分区域cut掉,并且填充0像素值,分类的结果不变;
  • CutMix:就是将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配

  • 上述三种数据增强的区别:cutout和cutmix就是填充区域像素值的区别;mixup和cutmix是混合两种样本方式上的区别:mixup是将两张图按比例进行插值来混合样本,cutmix是采用cut部分区域再补丁的形式去混合图像,不会有图像混合后不自然的情形
  • 优点:
  1. 在训练过程中不会出现非信息像素,从而能够提高训练效率;
  2. 保留了regional dropout的优势,能够关注目标的non-discriminative parts;
  3. 通过要求模型从局部视图识别对象,对cut区域中添加其他样本的信息,能够进一步增强模型的定位能力;
  4. 不会有图像混合后不自然的情形,能够提升模型分类的表现;
  5. 训练和推理代价保持不变。

2.CutMix的原理【与代码一同食用更好消化】

x_{A}x_{B}是两个不同的训练样本,y_{A}y_{B}是对应的标签值,CutMix需要生成的是新的训练样本和对应标签:\tilde{x}\tilde{y},公式如下:

                                                 \tilde{x}=\mathbf{M}\bigodot x_{A}+(\mathbf{1}-\mathbf{M})\bigodot x_{B}

                                                         \tilde{y}=\lambda y_{A}+(1-\lambda )y_{B}

\mathbf{M}\in \left \{ 0,1 \right \}^{W\times H}是为了dropd掉部分区域和进行填充的二进制掩码,\bigodot是逐像素相乘,\mathbf{1}是所有元素都为1 的二进制掩码,\lambda与Mixup一样属于Beta分布:\lambda \sim Beta(\alpha ,\alpha ),令\alpha=1\lambda服从(0,1)的均匀分布。

为了对二进制掩\mathbf{M}进行采样,首先要对剪裁区域的边界框\mathbf{B}= (r_{x}, r_{y}, r_{w}, r_{h})进行采样,用来对样本x_{A}x_{B}做裁剪区域的指示标定。在论文中对矩形掩码\mathbf{M}进行采样(长宽与样本大小成比例)。

剪裁区域的边界框采样公式如下:

                                                r_{x}\sim \textrm{Unif}(0,W), r_{w}=W\sqrt{1-\lambda },

                                                 r_{y}\sim \textrm{Unif}(0,H), r_{h}=H\sqrt{1-\lambda }

保证剪裁区域的比例为\frac{r_{w}r_{h}}{WH}=1-\lambda,确定好裁剪区域\mathbf{B}之后,将制掩\mathbf{M}中的裁剪区域\mathbf{B}置0,其他区域置1。就完成了掩码的采样,然后将样本A中的剪裁区域\mathbf{B}移除,将样本B中的剪裁区域\mathbf{B}进行裁剪然后填充到样本A。

3.论文中的一些讨论内容

1).What does model learn with CutMix?

作者通过热力图,给出了结果。CutMix的操作使得模型能够从一幅图像上的局部视图上识别出两个目标,提高训练的效率。由图可以看出,Cutout能够使得模型专注于目标较难区分的区域(腹部),但是有一部分区域是没有任何信息的,会影响训练效率;Mixup的话会充分利用所有的像素信息,但是会引入一些非常不自然的伪像素信息。

同时作者也给出了一个信息利用的对比表格,CutMix能有效地改善数据增强的效果,准确的定位和分类

4.看看代码

代码地址:https://github.com/clovaai/CutMix-PyTorch

1).生成剪裁区域:

"""train.py 279-295行"""
"""输入为:样本的size和生成的随机lamda值"""
def rand_bbox(size, lam):
    W = size[2]
    H = size[3]
    """1.论文里的公式2,求出B的rw,rh"""
    cut_rat = np.sqrt(1. - lam)
    cut_w = np.int(W * cut_rat)
    cut_h = np.int(H * cut_rat)

    # uniform
    """2.论文里的公式2,求出B的rx,ry(bbox的中心点)"""
    cx = np.random.randint(W)
    cy = np.random.randint(H)
    #限制坐标区域不超过样本大小

    bbx1 = np.clip(cx - cut_w // 2, 0, W)
    bby1 = np.clip(cy - cut_h // 2, 0, H)
    bbx2 = np.clip(cx + cut_w // 2, 0, W)
    bby2 = np.clip(cy + cut_h // 2, 0, H)
    """3.返回剪裁B区域的坐标值"""
    return bbx1, bby1, bbx2, bby2

2).整体流程:

"""train.py 220-244行"""
for i, (input, target) in enumerate(train_loader):
    # measure data loading time
    data_time.update(time.time() - end)

    input = input.cuda()
    target = target.cuda()
    r = np.random.rand(1)
    if args.beta > 0 and r < args.cutmix_prob:
        # generate mixed sample
        """1.设定lamda的值,服从beta分布"""
        lam = np.random.beta(args.beta, args.beta)
        """2.找到两个随机样本"""
        rand_index = torch.randperm(input.size()[0]).cuda()
        target_a = target#一个batch
        target_b = target[rand_index] #将原有batch打乱顺序
        """3.生成剪裁区域B"""
        bbx1, bby1, bbx2, bby2 = rand_bbox(input.size(), lam)
        """4.将原有的样本A中的B区域,替换成样本B中的B区域"""
        #打乱顺序后的batch组和原有的batch组进行替换[对应id下]
        input[:, :, bbx1:bbx2, bby1:bby2] = input[rand_index, :, bbx1:bbx2, bby1:bby2]
        # adjust lambda to exactly match pixel ratio
        """5.根据剪裁区域坐标框的值调整lam的值"""
        lam = 1 - ((bbx2 - bbx1) * (bby2 - bby1) / (input.size()[-1] * input.size()[-2]))
        # compute output
        """6.将生成的新的训练样本丢到模型中进行训练"""
        output = model(input)
        """7.按lamda值分配权重"""
        loss = criterion(output, target_a) * lam + criterion(output, target_b) * (1. - lam)
    else:
        # compute output
        output = model(input)
        loss = criterion(output, target)

差不多就这样。

END.

  • 67
    点赞
  • 287
    收藏
    觉得还不错? 一键收藏
  • 15
    评论
好的,下面是关于笔记管理系统功能的实现: 代码框架和文件组织: 1. 使用MVC(Model-View-Controller)模式进行开发。 2. 代码采用面向对象(Object-Oriented Programming)的编程方式。 3. 采用分层架构,将不同的功能分别放在不同的层中,提高代码的可维护性和可扩展性。 数据结构设计和接口: 1. 使用链表(LinkedList)作为笔记的数据结构。 2. 设计笔记类(Note)和文件类(File),并提供相应的接口。 功能函数实现: 1. 文件管理: 1.1 打开、关闭、保存文件:使用Java的I/O类,实现文件的读写操作。 1.2 创建和命名文件:使用Java的File类,实现文件的创建和命名操作。 2. 笔记编辑: 2.1 文本内容的输入与编辑:使用Java的Swing类库,实现文本框的输入与编辑。 2.2 光标的行间移动、删除与退格:使用Java的Swing类库,实现文本框的光标移动和编辑功能。 3. 笔记管理: 3.1 删除笔记:通过删除链表中相应的笔记实现。 3.2 分类笔记:通过设计笔记类的属性,将笔记按照层级结构或分栏方式进行分类。 4. 笔记查询: 4.1 全文搜索:通过遍历链表中的笔记,实现全文搜索。 4.2 全笔记搜索:通过遍历链表中的笔记,实现全笔记搜索。 4.3 高亮定位:使用Java的Swing类库,实现文本框中搜索结果的高亮显示。 以上是笔记管理系统的功能实现,具体的代码实现可以根据需求进行设计。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值