腾讯AI Lab发布多模态指令调优语言模型，支持图像、视频等四种不同模态

最新推荐文章于 2024-06-30 14:30:50 发布

PaperWeekly

最新推荐文章于 2024-06-30 14:30:50 发布

阅读量425

点赞数

文章标签：人工智能语言模型音视频自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/131692761

版权

腾讯AI Lab、都柏林城市大学和莫纳什大学的研究人员联合发布Macaw-LLM，这是一个能处理图像、视频、音频和文本的多模态指令调优语言模型。该模型通过模态模块、对齐模块和一站式微调，实现了跨模态指令跟随，能够执行复杂任务，如图像描述、视频故事生成和音频问答。研究人员创建了Macaw-LLM指令数据集，以增强模型的多样性。

摘要由CSDN通过智能技术生成

近期，来自腾讯 AI Lab、都柏林城市大学和莫纳什大学的研究人员发布了名为 Macaw-LLM 的研究成果。这项技术将大型语言模型与不同模态对齐和绑定，以实现跨模态指令跟随的能力。Macaw-LLM 能够执行复杂任务，如生成详细的图像描述、根据视频编写故事，以及回答与音频相关的问题。它可以同时接收多模态输入，并自然地组合它们的语义。

项目主页：

https://github.com/lyuchenyang/Macaw-LLM

论文链接：

https://arxiv.org/abs/2306.09093

视频链接：

https://www.youtube.com/watch?v=O7ZO0a8geM0

在这项工作中，我们提出了一种名为 Macaw-LLM 的多模态指令调优语言模型。它集成了图像、视频、音频和文本等四种不同的模态于一个模型之中。我们提出了一种新的对齐方法，将多模态特征与语言模型的嵌入进行对齐，从而产生与语言模型文本特征更接近的对齐特征，并能够自然地注入到语言模型的输入序列中。

为了解决当前多模态数据集主要强调特定任务类型的限制，我们还创建了 Macaw-LLM 指令数据集。该数据集涵盖了各种不同类型的指令任务，并结合了多种数据模态，使其更加多样化，更适合用于多模态指令调优语言模型。

方法

如图所示，Macaw-LLM 包含以下三个主要模块：

模态模块：现有的语言模型主要专注于处理文本信息。为了融合视觉和音频等额外的模态数据，我们在 Macaw-LLM 中集成了额外的模态编码器。这样的增强使得 Macaw

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。