论文阅读笔记-Are Pre-trained Convolutions Better than Pre-trained Transformers?

墨痕_777

于 2024-10-07 10:04:52 发布

阅读量449

点赞数 8

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mohen_777/article/details/140605517

版权

前言

Transformer诞生到现在，从NLP领域到CV领域，可以说是两开花。特别是在预训练模型中，BERT相关系列近些年屡屡突破，在各种下游任务中，不仅能提速还有效果上的提升。所以在NLP的相关任务中，提及Transformer和CNN时，Transformer一般都会优先考虑，更何况是在预训练语言模型方面，我以前都没有想过将CNN用在预训练，直到看到这篇文章，才打开了新思路，看来还是我格局小了呀。

正如论文标题一样：Are Pre-trained Convolutions Better than Pre-trained Transformers?这篇文章并没有能够将“CNN预训练优于Transformer预训练”这个结论石锤，不过从某种程度上说，还是将BERT、transformers和大规模预训练模型进行解耦，给我们打开了新世界，接下来我们就一起来品一品这篇文章。

前情提要

这篇文章其实围绕三个问题要讨论：

只有类Transformers的结构才适合预训练？
如果使用不同于Transformers结构的模型来进行预训练，是否能够提高收益？
使用卷积进行预训练是否在特定的场景表现更好？

在正式研究和讨论之前，还有几点需要达成共识的，根据以往的研究表明，卷积有着如下的优势：

CNN 比 self-attention 快得多：CNN 是线性复杂度，self-attention 是平方复杂度（甚至因此诞生了《轻量 transformers》这个分支领域）。
CNN 是按顺序进行的，因此不需要如Transformers那样，需要额外的位置编码。

不过还是需要注意的是，CNN 在单层的感受野大小是有限且固定的，只能通过堆叠层数来增大感受野，而self-attention 在一层就可以捕捉所有 token 之间的关系，这对于捕捉长距离依赖非常关键。同时，self-attention 聚合的权重是与输入 token 相关的，而 CNN 的聚合权重是与输入 token 无关的。

文章涉及到对比卷积的运行速度，我之前写过一篇如何根据FLOPs或MACC去大致的计算模型的速度，感兴趣的可以参考如下：
教你如何估计各种神经网络的计算量和参数量

我们来简单过一遍论文中使用到的卷积：

Depthwise Convolutions：深度可分离卷积中，每个通道只被一个卷积核所卷积，这里我们假设输入的张量 $X$ 的维度大小为 $n\times d$ ，那么深度可分离卷积 $D(X,W_{c:},i,c)$ 可以被定义为：
$O_{i,c}=\sum_{j-1}^k W_{c,j}\cdot X_{i+j-\left \lceil \frac{k+1}{2} \right \rceil},c$
其中， $W\in \mathbb{R}^{d\times k}$ 是可训练参数， $O_{i,c}$ 是通道 $c$ 的第 $i$ 个位置的输出，输出的shape和输入的shape相同，都是 $n\times d$
Lightweight Convolutions：轻量化卷积对深度可分离卷积做了进一步地简化，这里我们令

最低0.47元/天解锁文章

关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

墨痕_777 CSDN认证博客专家 CSDN认证企业博客

码龄131天

283: 原创

4695: 周排名

5666: 总排名

16万+: 访问

: 等级

6623: 积分

3360: 粉丝

3686: 获赞

13: 评论

2914: 收藏

私信

关注

热门文章

分类专栏

最新评论

论文阅读笔记-Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记-Are Pre-trained Convolutions Better than Pre-trained Transformers?
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记-LogME: Practical Assessment of Pre-trained Models for Transfer Learning
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记-How to Fine-Tune BERT for Text Classification?
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记-Pre-trained Models for Natural Language Processing: A Survey
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

墨痕_777 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。