腾讯开源VITA!全方位对标GPT4o,全能多模态交互大模型!

腾讯优图实验室联合南京大学、厦门大学和中国科学院自动化研究所推出了VITA,一个开源的多模态大型语言模型。该模型擅长同时处理和分析视频、图像、文本和音频模态,并通过非唤醒交互和音频中断交互实现先进的多模态交互体验。

作者表示:所有训练代码、部署代码和模型权重即将发布!已经提交了开源代码,但还在进行内部审查。

VITA

3个月前,OpenAI发布最新的大模型GPT4-o,支持听、看、说,全程丝滑的想在和真人互动。

VITA 全方位的对标GPT4-o,具体内容如下所示:

1、实时和大模型语言交互(例如询问,当前视频内容中主体所处的环境;询问传递建议等)

556b741ee99d7e3dafaf32ed61df72b9.png

2、实时视频交互,给大模型展示一道数学题,让大模型帮忙解答(同时demo中也展示了sony的耳机以及一本书等,让大模型回答,都争取回复)

a89456a913811d745a7889d10f09cc2b.png

3、实时让让AI变换语音回复的音色

1ce3110e0dea53136b7b04e3e45f1211.png

更多其他多模态能力测试效果:

1)高分辨感知,根据图片中的一小块中的路标提示,理解具体的含义并做出相应的判断

48443661c30aca35ffe9153e983f793a.png

2)密集OCR识别,理解商品上包装细小的文字,并给出合理的建议

beefb8875f77e1c6fda90119bc91ff95.png

3)数学问题解答

f71457dc31e459a0b6da99fd5eef2179.png

4)代码能力,根据流程图,编写代码

d02ebd9bdb4efb3abac0488b0b046469.png

5)推理能力

b16560d40c0ee29b3fcf752a6fbb1126.png

6)基于计算的推理

645da26f82710d29c609dfcfaf3b33aa.png

7)视频描述和理解能力

1265e9f0571a6bf7a534574495a9f1ab.png

论文和项目地址:

https://vita-home.github.io/

https://arxiv.org/pdf/2408.05211

https://github.com/VITA-MLLM/VITA

以上就是今天分享的最新成果,如果对大家有帮助,希望能帮忙点赞转发一波,感谢各位小伙伴!!!

推荐

微信交流群现已有2000+从业人员交流群,欢迎进群交流学习(nvshenj125)

请备注:方向+姓名+学校/公司名称!一定要根据格式申请,拉你进群。

9fb0133a2471335fea55f7e6ca96a862.jpeg

B站最新成果demo分享地址:https://space.bilibili.com/288489574

顶会工作整理Github repo:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值