达摩院发布mPLUG-2 跨模态模块化基础大模型;字节放出Make-An-Audio论文

关注并星标

从此不迷路

计算机视觉研究院

286b4de1a46153e3bada624d42b4f7fc.gif

7b6e64a14768fe95593239dfdee1ec8a.gif

cde0009fce6098c8abc6a7b4b1d00229.png

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

看到 ChatGPT 的华丽诞生,心情很复杂,既高兴、惊喜,也感到恐慌。高兴和惊喜的是没有预料到这么快就见证了自然语言处理(NLP)技术的重大突破,体验到通用技术的无限魅力。恐慌的是 ChatGPT 几乎可以高质量地完成 NLP 中的大多数任务,逐渐认识到很多 NLP 的研究方向遇到了极大挑战。

转自《机器之心SOTA模型》   

961fc9e21450dc89f7bef9fcfc28c68e.png看看本周新进展

本周带来的 个 SOTA 模型分别用于视频编辑、文本到音频生成、文本到3D生成、图像到图像转换、语言模型推理等;2 个新思路关于文本提示优化、扩散模型;1 个工具关于持续学习;1 个数据集关于视频对象分割。

阿里达摩院推出mPLUG-2,跨文本、图像和视频的模块化多模态基础模型

7f3a7a63ef2758137426cab3db05781d.pngmPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

近年来,语言、视觉和多模态的预训练有了很大的融合。该研究提出了 mPLUG-2,一个新的统一的多模态预训练的模块化设计范式。它可以灵活地选择不同的模块来完成包括文本、图像和视频在内的所有模态的不同理解和生成任务。mPLUG-2 在 30 多个下游任务中取得SOTA,包括图像-文本和视频-文本理解和生成等多模态任务,以及纯文本、纯图像和纯视频理解等单模态任务;同时 mPLUG-2 在具有挑战性的 MSRVTT 视频质量保证和视频字幕任务中,以更小的模型规模和数据规模显示了 48.0 的最高准确率和 80.3 的 CIDEr 的新的最先进的结果。

获取资源:

https://sota.jiqizhixin.com/project/mplug-2

2dcef55d4a25cda1d6081e25935bf0fa.png


字节等推出Make-An-Audio,文字、图片一键生成逼真音效

bc46a8c77ad91e8f80fe7dc97f53f2ad.pngMake-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

大规模多模态生成模型在文本到图像和文本到视频的生成方面创造了里程碑。它在音频领域的应用仍然滞后,主要在于缺乏高质量文本 - 音频对的大规模数据集,以及对长时间连续音频数据建模的复杂性。该研究提出文本到音频的生成系统 Make-An-Audio,可将任意模态的自然语言描述(如文本、音频、图像、视频等)作为输入,输出符合描述的音频音效。其用 distill-then-reprogram 引入伪提示增强,通过无语言的音频,以数量级的概念组合缓解了数据的稀缺性;同时用谱图自动编码器来预测自我监督的音频表现。

获取资源:

https://sota.jiqizhixin.com/project/make-an-audio

7a632cd7536f2d7f1b1ce36e85fd4dd8.png


谷歌研究院等提出Dreamix,将文本条件视频扩散模型应用于视频编辑

2c4ef8077dcd55cb351b8559c0dd33e5.pngDreamix: Video Diffusion Models are General Video Editors

文本驱动的图像和视频扩散模型实现了前所未有的生成真实性。谷歌提出 Dreamix,将文本条件视频扩散模型(VDM)应用于视频编辑。Dreamix 可基于文本描述对视频进行编辑、更改视频的对象。Dreamix 可使文本条件 VDM 保持对输入视频的高保真度。关键思路有两点:不使用纯噪声作为模型初始化,而是使用原始视频的降级版本,通过缩小尺寸和添加噪声仅保留低时空信息;通过微调原始视频上的生成模型来进一步提升对原始视频的保真度。

获取资源:

https://sota.jiqizhixin.com/project/dreamix

06f434c49a8f6a04047489b645a6e428.png


谷歌提出Noise2Music,可从文本提示中生成高质量的30秒音乐片段

33f07616b47b2851af11311e6deee846.pngNoise2Music: Text-conditioned Music Generation with Diffusion Models

该研究介绍 Noise2Music,训练了一系列扩散模型,以从文本提示生成高质量的 30 秒音乐剪辑。该研究包含两种类型的扩散模型,一种是生成器模型,它生成以文本为条件的中间表示,另一种是级联模型,它生成以中间表示和可能的文本为条件的高保真音频,它们被连续训练和利用以生成高保真音乐。生成的音频不仅能够忠实地反映文本提示的关键元素,如流派、节奏、乐器、情绪和时代,而且超越了提示的细粒度语义。

获取资源:

https://sota.jiqizhixin.com/project/noise2music

291f81150dbef5a001e6f3e9cc53779e.png


以色列特拉维夫大学提出TEXTure,以文本为指导生成、编辑和迁移3D形状纹理

9c02ffaa9e096b5fa03669b0ef4bd2f2.pngTEXTure: Text-Guided Texturing of 3D Shapes

该研究提出 TEXTure,一种以文本为指导生成、编辑和转移 3D 形状的纹理的新方法。应用预训练深度到图像扩散模型,通过迭代从不同视角绘制 3D 模型。为解决深度到图像模型在生成过程中,随机性对整个 3D 对象进行纹理处理时导致的不一致,该研究将渲染图像动态定义为三个渐进状态的 trimap 分区,并提出新的扩散采样过程。广泛评估表明,TEXTure 在生成、传输和编辑纹理方面表现出色,并进一步缩小了 2D 图像生成和 3D 纹理之间的差距。

获取资源:

https://sota.jiqizhixin.com/project/texture

e1dc9e42f819a5a6001aa0dbca0dbfdd.png


马里兰大学提出基于梯度的优化方法,为文本到图像文本生成鲁棒和灵活的硬文本提示

33efaab9ac510a05dc8729ca699121cc.pngHard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery

现代生成式模型的优势在于它们能够通过基于文本的提示进行控制。典型的 "硬 "提示是由可解释的词和标记组成的,必须由人类手工制作。该研究提出一种通过有效的基于梯度的优化来稳健地优化硬文本提示的方法,为文本到图像和文本到文本的应用自动生成了基于硬文本的提示语。在文本到图像的设置中,该方法为扩散模型创建了硬提示,允许 API 用户轻松生成、发现、混合和匹配图像概念,而无需事先了解如何提示模型。在文本到文本的设置中,该研究表明硬提示可以被自动发现,从而有效地调整 LMs 进行分类。

7d5340d04c26cd9940ff4aee4f593f87.png


卡内基梅隆大学等提出零试图像到图像变换方法pix2pix-zero,无需手动提示即可保留原始图像的内容

a4e0516fac57656e7a8e7a31c503acaf.pngZero-shot Image-to-Image Translation

大规模文本到图像生成模型已显示出其合成多样化和高质量图像的显著能力。然而用户难以通过完美文本提示,准确描述输入图像中的每个视觉细节。现有模型可在某些区域引入理想的变化,但它们往往会极大地改变输入内容,并使得不需要的区域出现意想不到的变化。该研究提出 pix2pix-zero,这是一种图像到图像的转换方法,可在没有手动提示的情况下保留原始图像的内容,通过使用现有的预训练文本到图像的扩散模型,而无需对编辑方向进行额外训练。

获取资源:

https://sota.jiqizhixin.com/project/pix2pix-zero

3b3b93cea61dc1ad67aa0a8c7d3d2acc.png


上海交通大学等提出将视觉特征纳入解耦训练框架的Multimodal-CoT,生成有助于答案推理的有效理由

b1906143dedfd438da24c8d550ee7161.pngMultimodal Chain-of-Thought Reasoning in Language Models

大型语言模型(LLMs)通过思想链(CoT)提示,生成中间推理链作为推断答案的依据,现有研究在语言模式下与 LLMs 隔离,使得 LLMs 难以部署。该研究提出 Multimodal-CoT,在一个解耦的训练框架中加入了视觉特征。该框架将理由生成和答案推理分成两个阶段。通过将视觉特征纳入这两个阶段,该模型能够生成有助于答案推理的有效理由。借助 Multimodal-CoT,10 亿参数的语言模型在 ScienceQA 基准上比之前最先进的 LLM(GPT-3.5)高出 16%(75.17%->91.68%),甚至超过了人类的表现。

获取资源:

https://sota.jiqizhixin.com/project/multimodal-cot

ca2af15b2b5804e0f74274705e9f9921.png


比萨大学等开发的用于深度持续学习的软件库Avalanche,提供大量预定义的基准和训练算法

3aa9a5cbfdfda6708a2e276295438129.pngAvalanche: A PyTorch Library for Deep Continual Learning

持续学习是指从非平稳的数据流中学习的问题,这是一个可持续的、高效的深度神经网络训练的基本问题。然而,假设模型的架构和数据是固定的,深度学习库只为离线训练提供基元。该研究开源 Avalanche,提供了大量预定义的基准和训练算法,易于扩展和模块化,同时支持广泛的连续学习场景。

获取资源:

https://sota.jiqizhixin.com/project/avalanche

48128affc10ea2d1735cd16872751d8d.png


马德里自治大学等提出用于场景合成和高分辨率图像生成的混合扩散器

014ce953872e75af549e91eb1edc42e7.pngMixture of Diffusers for scene composition and high resolution image generation

扩散方法已被证明对生成图像非常有效,同时可以对文本提示进行调节。然而,这些方法在试图生成特定的图像组合时比较困难。该研究提出 Mixture of Diffusers,用于场景合成和高分辨率图像生成。其建立在现有扩散模型之上的算法,以提供对图像组合更详细控制。其通过协调作用于画布不同区域的几个扩散过程,它可以生成更大的图像,其中每个物体和风格的位置都由一个单独的扩散过程控制。

获取资源:

https://sota.jiqizhixin.com/project/mixture-of-diffusers

b13f82fcf2ada45448a7e95f7427f20f.png


南洋理工大学等提出复杂场景中视频对象分割的新数据集MOSE

bc3a06db2192af1c1351471842951dec.pngMOSE: A New Dataset for Video Object Segmentation in Complex Scenes

视频对象分割 (VOS) 旨在整个视频剪辑序列中分割出特定对象。然而,由于现有数据集中的目标对象通常相对突出、占主导地位和孤立,因此很少研究复杂场景下的 VOS。为了重新审视 VOS 并使其更适用于现实世界,该研究收集名为复杂视频对象分割 (MOSE) 的新 VOS 数据集,以研究复杂环境中的跟踪和分割对象。MOSE 包含来自 36 个类别的 2149 个视频片段和 5200 个对象,具有 43w+ 个高质量对象分割掩码,涵盖拥挤和遮挡对象的复杂场景。

获取资源:平台收录新数据集:2023/02/04

7eab42879644c3d593f7a568b609954f.png


© The Ending

转载请联系本公众号获得授权

68b4fb66f84abb18566e1d7cf0b4ccef.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

83a3ba3d8e911fd5bd772636f8b0975a.jpeg

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值