【如何找IDEA】之打补丁法

最新推荐文章于 2024-05-21 17:01:20 发布

Vincy_King

最新推荐文章于 2024-05-21 17:01:20 发布

阅读量731

点赞数

分类专栏：期刊阅读 NLP 文章标签：期刊阅读自然语言处理沐神

本文链接：https://blog.csdn.net/qq_42801194/article/details/122286843

版权

NLP 同时被 2 个专栏收录

47 篇文章 17 订阅

订阅专栏

期刊阅读

32 篇文章 1 订阅

订阅专栏

打补丁法【打在脸上，效果最佳】——以MAE为例

一、基于原文章的补丁想自己的点

以下是MAE的故事大纲：

基于ViT+BERT
- 遮住更多的图片块
  - 编码时只处理没遮住的
- 用Transformer来输出（解码）

（有从ViT+BERT到MAE的分析，再从MAE加上前面整个来看）

ViT最后一小段有说，作者怎样把这个东西弄到BERT上去，但效果不如直接在标号上训练的效果好
基于此，MAE做了2个改进：

1.做掩码的时候遮住更多的图片块，这样子能够尽量使得图片之间没有那么冗余，使得任务更具挑战性。文中有提到，在编码的时候，只去处理那些没有遮住的块用来加速，但这个东西只是这个想法延申而来的一个加速技巧。

2.作者认为一个简单的全连接层来输出像素信息跨越度太大了，所以本文用一个transformer模块来输出最后要的这些像素。

第一个想法可以认为是一个非常强的数据增强，就是在图片中加入很多噪音进去。图片增强是用来尽量使得模型不那么过拟合（也的确可以看到这样的结果），但坏处是，会导致训练速度特别慢。这时候就会有一个别的想法，就是说，我能不能做一些别的一些数据增强，使得不需要花费那么大的时间去训练，同时也保证效果也不会差。

第二来看一下主干网络ViT，论文中作者也提到可以用一些新一点的架构，说不定效果会更好，第二个想法是说，我们是不是能用一些新的模型来替换掉ViT来看一下效果。比如说，大家发现在transformer里面的自注意力也好，MLP也好，其实都是可以替换的，只要整个架构摆在那里，架构也是不错的。甚至可以更打脸的说，CNN行不行(✿◡‿◡)。

第三个还是回到BERT，BERT在做损失的时候，它其实有两个损失函数，一个是完形填空，另外一个是句子对的匹配，那么在这个地方是不是也可以增加一个额外的一个损失函数，比如说最近比较火的contrastive learning，是不是也能够加进来作为一个额外的损失函数？

二、IDEA如何得到？

如果我来做的话，有没有别的方法来做它，因此得到新的IDEA。最后的最后还是需要去验证，真的做实验，发现哪个效果好，很多时候也是在有一个想法，做一些实验发现其实不那么回事，但是通过观察实验的结果，得到一些新的IDEA，然后再开始做实验。其实每个想法对最后的贡献都有那么一点点，揉起来，也可能成一篇文章。比如MAE这篇文章其实是揉了两个东西，任何一个东西拿掉，效果是会打折的。

不要打太多太多的补丁，这些补丁如果东一块西一块的话，会显得比较脏。最好在打补丁的时候，有一个故事能把它串起来。

MAE的两个补丁打的虽然比较远，但多多少少还是的Into中通过一个故事串了起来，读起来没有那么的违和感，考验了写作的手法。

三、选择哪篇论文打补丁，也是比较讲究的。

选一些新的论文，空间比较大。如果一篇论文已经是一个打补丁的论文的话，在上面打的话，很有可能是比较难打到补丁的。因为作者在一开始的时候已经试过很多很多东西了，所以再去试的时候，很有可能其实作者早就试过了，根本就不work，所以这时候最好选一些脑洞比较大的论文。比如ViT一出来，马上有大量的作者去跟进，大家觉得这一块比较新，可能里面没有被做到的想法还是很多，另一块要掂量掂量自己，这是比较烧钱的工作。

最后附上沐神B站链接

Vincy_King

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【如何找IDEA】之打补丁法

打补丁法【打在脸上，效果最佳】——以MAE为例一、基于原文章的补丁想自己的点以下是MAE的故事大纲：基于ViT+BERT遮住更多的图片块编码时只处理没遮住的用Transformer来输出（解码）（有从ViT+BERT到MAE的分析，再从MAE加上前面整个来看）ViT最后一小段有说，作者怎样把这个东西弄到BERT上去，但效果不如直接在标号上训练的效果好基于此，MAE做了2个改进：1.做掩码的时候遮住更多的图片块，这样子能够尽量使得图片之间没有那么冗余，使得任务更具挑战性。
复制链接

扫一扫