腾讯开源VITA！全方位对标GPT4o，全能多模态交互大模型！

最新推荐文章于 2024-08-27 08:00:00 发布

flyfor2013

最新推荐文章于 2024-08-27 08:00:00 发布

阅读量670

点赞数 8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flyfor2013/article/details/141145779

版权

腾讯优图实验室联合南京大学、厦门大学和中国科学院自动化研究所推出了VITA，一个开源的多模态大型语言模型。该模型擅长同时处理和分析视频、图像、文本和音频模态，并通过非唤醒交互和音频中断交互实现先进的多模态交互体验。

作者表示：所有训练代码、部署代码和模型权重即将发布！已经提交了开源代码，但还在进行内部审查。

VITA

3个月前，OpenAI发布最新的大模型GPT4-o，支持听、看、说，全程丝滑的想在和真人互动。

VITA 全方位的对标GPT4-o，具体内容如下所示：

1、实时和大模型语言交互（例如询问，当前视频内容中主体所处的环境；询问传递建议等）

2、实时视频交互，给大模型展示一道数学题，让大模型帮忙解答（同时demo中也展示了sony的耳机以及一本书等，让大模型回答，都争取回复）

3、实时让让AI变换语音回复的音色

更多其他多模态能力测试效果：

1）高分辨感知，根据图片中的一小块中的路标提示，理解具体的含义并做出相应的判断

2）密集OCR识别，理解商品上包装细小的文字，并给出合理的建议

3）数学问题解答

4）代码能力，根据流程图，编写代码

5）推理能力

6）基于计算的推理

7）视频描述和理解能力

论文和项目地址：

https://vita-home.github.io/

https://arxiv.org/pdf/2408.05211

https://github.com/VITA-MLLM/VITA

以上就是今天分享的最新成果，如果对大家有帮助，希望能帮忙点赞转发一波，感谢各位小伙伴！！！

推荐

微信交流群现已有2000+从业人员交流群，欢迎进群交流学习（nvshenj125）

请备注：方向+姓名+学校/公司名称！一定要根据格式申请，拉你进群。

B站最新成果demo分享地址：https://space.bilibili.com/288489574

顶会工作整理Github repo：https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo

关注

8
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。