2022年「预训练」优秀论文盘点

智源社区

于 2023-01-04 17:00:20 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/128556863

版权

No.69

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

《预训练周刊》已经开启“订阅功能”，扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”，即可收到推送消息。

关于周刊

本期周刊，我们对2022年的预训练周刊中报道论文进行了重点汇总，包括了本年度的热点论文及领域综述等。视觉多模态话题包括各种通用模型、图文生成，机器人等；自然语言话题包括全年各个大厂的预训练和微调大模型等；生命科学话题介绍了本年在蛋白质预训练方面的进展；基础研究话题包括了Pathways、foundation transformer等在相对底层方面的工作。

本期汇总的话题，谨代表预训练周刊2022年中所报道的部分选摘内容，从中可以看到2022年大模型向着更大更通用的模型发展等整体趋势，希望2023能共同见证更通用更智能模型在各个下游领域大展身手。藉此机会、编辑组全员谨祝大家新年快乐！

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：翟珂吴新刚）

论文推荐

【视觉模态研究】

标题：Meta|data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language(data2vec：语音、视觉和语言自监督学习的通用框架)

推荐理由：本文介绍了一种通用表征工具，它对任何一种模态都使用相同的学习方法，核心思想是利用标准Transformer架构的遮蔽和自蒸馏机制学习，而不是预测特定任务目标。

论文地址：https://arxiv.org/pdf/2212.07525.pdf

Hub地址：https://hub.baai.ac.cn/view/14313

标题：谷歌｜ Scaling Autoregressive Models for Content-Rich Text-to-Image Generation（用于内容丰富的文本到图像生成的缩放自回归模型）

推荐理由：本文展示了在Pathways基础上训练的自回归文本到图像模型Parti，这是一种自回归文本到图像生成模型，可实现高保真照片级真实感图像生成，并支持涉及复杂构图和世界知识的内容丰富的综合，与谷歌的Imagen扩散模型分庭而立。

论文地址：https://arxiv.org/pdf/2206.10789.pdf

Hub地址：https://hub.baai.ac.cn/view/18292

标题：Meta | Scaling Language-Image Pre-training via Masking（通过掩码进行语言-图像预训练的缩放）

推荐理由：本文提出一种用于训练CLIP的简单而有效的方案FLIP，它在训练过程中对图像块进行大比例的随机掩码移除，可以将CLIP的训练过程加速2～3倍。其核心改进就是在训练过程对图像进行随机掩码。

论文下载：https://arxiv.org/pdf/2212.00794.pdf

HUB地址：https://hub.baai.ac.cn/view/22214

标题：谷歌等 | RT-1: Robotics Transformer for Real-World Control at Scale（RT-1: 用于真实世界大规模控制的机器人Transformer）

作者：Anthony Brohan, Noah Brown等

推荐理由：本文提出了机器人Transformer RT-1，它可以吸收大量数据，并推广到新任务、环境、物体和其他机器人形态。RT1基于transformer解码器架构构建，将图像和任务描述作为输入，经过ImageNet预训练的EfficientNet-B3模型和语言模型指令编码后，直接输出代表动作的11个变量的离散化表征。

论文下载：https://arxiv.org/pdf/2212.06817.pdf

HUB地址：https://hub.baai.ac.cn/view/22538

标题：Deepmind、牛津等 | Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?（突破自监督ResNet的极限：我们能否在无标签ImageNet上超越监督学习？）

推荐理由：本文提出了ReLICv2，它将不变性损失与对比目标相结合，首次证明了在无标签的情况下学习到的表征能够持续超越ImageNet上强大的监督基线，同时它也是第一个使用标准ResNet架构的在同类比较中持续优于监督基线的表征学习方法。

论文下载：https://arxiv.org/pdf/2201.05119v1.pdf

Hub地址：https://hub.baai.ac.cn/view/14183

标题：谷歌 | PaLI: A Jointly-Scaled Multilingual Language-Image Model（一种联合扩展的多语种语言图像模型）

最低0.47元/天解锁文章

智源社区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2022年「预训练」优秀论文盘点

No.69智源社区预训练组预训练研究观点资源活动周刊订阅《预训练周刊》已经开启“订阅功能”，扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”，即可收到推送消息。关于周刊本期周刊，我们对2022年的预训练周刊中报道论文进行了重点汇总，包括了本年度的热点论文及领域综述等。视觉多模态话题包括各种通用模型、图文生成，机器人等；自然语言话题包括全年各个大厂的预训练和微调大模型等；生命科学话题介绍了本...
复制链接

扫一扫