何恺明新作RCG：无自条件图像生成新SOTA！与MIT首次合作！

最新推荐文章于 2024-09-30 14:16:32 发布

Amusi（CVer）

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量397

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247587879&idx=2&sn=67735412c82125195ac1af410de84302&chksm=f85901fe8664a8708200f1a16400a6a830e8e7403712981b9ece5c37dfe8af73b6fe057c2c6a&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【视觉和Transformer】微信交流群

扫码加入CVer知识星球，可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文，强烈推荐！

在CVer微信公众号后台回复：RCG，即可下载论文pdf和代码链接！快学起来！

转载自：量子位

大佬何恺明还未正式入职MIT，但和MIT的第一篇合作研究已经出来了：

他和MIT师生一起开发了一个自条件图像生成框架，名叫RCG（代码已开源）。

这个框架结构非常简单但效果拔群，直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。

它生成的图像不需要任何人类注释（也就是提示词、类标签什么的），就能做到既保真又具有多样性。

这样的它不仅显著提高了无条件图像生成的水平，还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说：

有条件和无条件生成任务之间长期存在的性能差距，终于在这一刻被弥补了。

那么，它究竟是如何做到的呢？

类似自监督学习的自条件生成

首先，所谓无条件生成，就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种方式比较难以训练，所以一直和条件生成有很大性能差距——就像无监督学习比不过监督学习一样。

但就像自监督学习的出现，扭转了这一局面一样。

在无条件图像生成领域，也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布，这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上。

它有望超越条件图像生成，并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展（这也是为什么条件生成图像发展得这么好，我们还要重视无条件生成）。

现在，基于这个自条件生成概念，何恺明团队首先开发了一个表示扩散模型RDM。

它主要用于生成低维自监督图像表示，方法是通过自监督图像编码器从图像中截取：

它的核心架构如下：

首先是输入层，它负责将表征投射到隐藏维度C，接着是N个全连接块，最后是一个输出层，负责把隐藏层的潜在特征重新投射（转换）到原始表征维度。

其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

这样的RDM具有两个优点：

一是多样性强，二是计算开销小。

接着，利用RDM，团队就提出了今天的主角：表示条件图像生成架构RCG。

它是一个简单的自条件生成框架，由三个组件组成：

一个是SSL图像编码器，用于将图像分布转换为紧凑的表示分布。

一个是RDM，用于对该分布进行建模和采样。

最后是一个像素生成器MAGE，用于根据表示来处理图像像。

MAGE的工作方式主要是向token化的图像中添加随机掩码，并要求网络以从同一图像中提取的表示为条件来重建丢失的token。

最终，测试表明，这个自条件生成框架虽结构简单但效果非凡：

在ImageNet 256×256上，RCG实现了3.56的FID和186.9的IS（Inception Score）得分。

相比之下，在它之前最厉害的无条件生成方法FID分数为7.04，IS得分为123.5。

以及，相比条件生成，RCG也丝毫不逊色，可以达到相当甚至超过该领域基准模型的水平。

最后，在无分类器引导的情况下，RCG的成绩还能进一步提高到3.31（FID）和253.4（IS）。

团队表示：

这些结果表明，自条件图像生成模型拥有巨大潜力，可能预示这一领域新时代的到来。

团队介绍

本文一共三位作者：

代码：https://github.com/LTH14/rcg

论文：https://arxiv.org/abs/2312.03701

一作是MIT博士生黎天鸿，本科毕业于清华姚班，研究方向为跨模态集成传感技术。

他的主页很有意思，还专门放了一个菜谱合集——做研究和做饭是他最热爱的两件事。

另一位作者是MIT电气工程与计算机科学系（EECS）教授、MIT无线网络和移动计算中心主任Dina Katabi，她是今年斯隆奖的获得者，并已当选美国国家科学院院士。

最后，通讯作者为何恺明，他将在明年正式回归学界、离开Meta加入MIT电气工程和计算机科学系，与Dina Katabi成为同事。

在CVer微信公众号后台回复：RCG，即可下载论文pdf和代码链接！快学起来！

CVPR / ICCV 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

Amusi（CVer）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫