2022年「预训练」优秀论文盘点

No.69

智源社区

预训练组

cbc0399e5c60c9e4d87cc58a338ea530.png

研究

观点

资源

活动

周刊订阅

《预训练周刊》已经开启“订阅功能”,扫描下面二维码,进入《预训练周刊》主页,选择“关注TA”,即可收到推送消息。

bb9208ef6495774e759000879343dae3.png

关于周刊

本期周刊,我们对2022年的预训练周刊中报道论文进行了重点汇总,包括了本年度的热点论文及领域综述等。视觉多模态话题包括各种通用模型、图文生成,机器人等;自然语言话题包括全年各个大厂的预训练和微调大模型等;生命科学话题介绍了本年在蛋白质预训练方面的进展;基础研究话题包括了Pathways、foundation transformer等在相对底层方面的工作。

本期汇总的话题,谨代表预训练周刊2022年中所报道的部分选摘内容,从中可以看到2022年大模型向着更大更通用的模型发展等整体趋势,希望2023能共同见证更通用更智能模型在各个下游领域大展身手。藉此机会、编辑组全员谨祝大家新年快乐!

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

(本期贡献者:翟珂 吴新刚)

6e4278ef3db7f4f5da49f963a462443c.jpeg

3d70b2ebbe9571fb610dbcebd86a4b3e.jpeg

a692b7db652e958963ac83d3cf3a8577.jpeg

414de85068b871aeee3530e2baaaf499.jpeg

efc5dab67b6c76ab899eb5cfc95a489b.jpeg

论文推荐

【视觉模态研究】

标题:Meta|data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language(data2vec:语音、视觉和语言自监督学习的通用框架)

推荐理由:本文介绍了一种通用表征工具,它对任何一种模态都使用相同的学习方法, 核心思想是利用标准Transformer架构的遮蔽和自蒸馏机制学习,而不是预测特定任务目标。

论文地址:https://arxiv.org/pdf/2212.07525.pdf

Hub地址:https://hub.baai.ac.cn/view/14313

标题:谷歌 | Scaling Autoregressive Models for Content-Rich Text-to-Image Generation(用于内容丰富的文本到图像生成的缩放自回归模型)

推荐理由:本文展示了在Pathways基础上训练的自回归文本到图像模型Parti,这是一种自回归文本到图像生成模型,可实现高保真照片级真实感图像生成,并支持涉及复杂构图和世界知识的内容丰富的综合,与谷歌的Imagen扩散模型分庭而立。

论文地址:https://arxiv.org/pdf/2206.10789.pdf

Hub地址:https://hub.baai.ac.cn/view/18292

标题:Meta | Scaling Language-Image Pre-training via Masking(通过掩码进行语言-图像预训练的缩放)

推荐理由:本文提出一种用于训练CLIP的简单而有效的方案FLIP,它在训练过程中对图像块进行大比例的随机掩码移除,可以将CLIP的训练过程加速2~3倍。其核心改进就是在训练过程对图像进行随机掩码。

论文下载:https://arxiv.org/pdf/2212.00794.pdf

HUB地址:https://hub.baai.ac.cn/view/22214

标题:谷歌等 | RT-1: Robotics Transformer for Real-World Control at Scale(RT-1: 用于真实世界大规模控制的机器人Transformer)

作者:Anthony Brohan, Noah Brown等

推荐理由:本文提出了机器人Transformer RT-1,它可以吸收大量数据,并推广到新任务、环境、物体和其他机器人形态。RT1基于transformer解码器架构构建,将图像和任务描述作为输入,经过ImageNet预训练的EfficientNet-B3模型和语言模型指令编码后,直接输出代表动作的11个变量的离散化表征。

论文下载:https://arxiv.org/pdf/2212.06817.pdf

HUB地址:https://hub.baai.ac.cn/view/22538

标题:Deepmind、牛津等 | Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?(突破自监督ResNet的极限:我们能否在无标签ImageNet上超越监督学习?)

推荐理由:本文提出了ReLICv2,它将不变性损失与对比目标相结合,首次证明了在无标签的情况下学习到的表征能够持续超越ImageNet上强大的监督基线,同时它也是第一个使用标准ResNet架构的在同类比较中持续优于监督基线的表征学习方法。

论文下载:https://arxiv.org/pdf/2201.05119v1.pdf

Hub地址:https://hub.baai.ac.cn/view/14183

标题:谷歌 | PaLI: A Jointly-Scaled Multilingual Language-Image Model(一种联合扩展的多语种语言图像模型)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值