【如何找IDEA】之打补丁法

打补丁法【打在脸上,效果最佳】——以MAE为例

一、基于原文章的补丁想自己的点

以下是MAE的故事大纲:

  • 基于ViT+BERT
    • 遮住更多的图片块
      • 编码时只处理没遮住的
    • 用Transformer来输出(解码)

(有从ViT+BERT到MAE的分析,再从MAE加上前面整个来看)

ViT最后一小段有说,作者怎样把这个东西弄到BERT上去,但效果不如直接在标号上训练的效果好
基于此,MAE做了2个改进:

1.做掩码的时候遮住更多的图片块,这样子能够尽量使得图片之间没有那么冗余,使得任务更具挑战性。文中有提到,在编码的时候,只去处理那些没有遮住的块用来加速,但这个东西只是这个想法延申而来的一个加速技巧。

2.作者认为一个简单的全连接层来输出像素信息跨越度太大了,所以本文用一个transformer模块来输出最后要的这些像素。

第一个想法可以认为是一个非常强的数据增强,就是在图片中加入很多噪音进去。图片增强是用来尽量使得模型不那么过拟合(也的确可以看到这样的结果),但坏处是,会导致训练速度特别慢。这时候就会有一个别的想法,就是说,我能不能做一些别的一些数据增强,使得不需要花费那么大的时间去训练,同时也保证效果也不会差。

第二来看一下主干网络ViT,论文中作者也提到可以用一些新一点的架构,说不定效果会更好,第二个想法是说,我们是不是能用一些新的模型来替换掉ViT来看一下效果。比如说,大家发现在transformer里面的自注意力也好,MLP也好,其实都是可以替换的,只要整个架构摆在那里,架构也是不错的。甚至可以更打脸的说,CNN行不行(✿◡‿◡)。

第三个还是回到BERT,BERT在做损失的时候,它其实有两个损失函数,一个是完形填空,另外一个是句子对的匹配,那么在这个地方是不是也可以增加一个额外的一个损失函数,比如说最近比较火的contrastive learning,是不是也能够加进来作为一个额外的损失函数?

二、IDEA如何得到?

如果我来做的话,有没有别的方法来做它,因此得到新的IDEA。最后的最后还是需要去验证,真的做实验,发现哪个效果好,很多时候也是在有一个想法,做一些实验发现其实不那么回事,但是通过观察实验的结果,得到一些新的IDEA,然后再开始做实验。其实每个想法对最后的贡献都有那么一点点,揉起来,也可能成一篇文章。比如MAE这篇文章其实是揉了两个东西,任何一个东西拿掉,效果是会打折的。

不要打太多太多的补丁,这些补丁如果东一块西一块的话,会显得比较脏。最好在打补丁的时候,有一个故事能把它串起来。

MAE的两个补丁打的虽然比较远,但多多少少还是的Into中通过一个故事串了起来,读起来没有那么的违和感,考验了写作的手法。

三、选择哪篇论文打补丁,也是比较讲究的。

选一些新的论文,空间比较大。如果一篇论文已经是一个打补丁的论文的话,在上面打的话,很有可能是比较难打到补丁的。因为作者在一开始的时候已经试过很多很多东西了,所以再去试的时候,很有可能其实作者早就试过了,根本就不work,所以这时候最好选一些脑洞比较大的论文。比如ViT一出来,马上有大量的作者去跟进,大家觉得这一块比较新,可能里面没有被做到的想法还是很多,另一块要掂量掂量自己,这是比较烧钱的工作。

最后附上沐神B站链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值