超过GPT-4V,国产开源多模态大模型来了!支持视频理解/超高分辨率图片理解/多轮对话...

扫码领取享50优惠!随时可用,先到先得!

e24deafcdda3418409dff52aead46826.png

大家好,开源多模态大模型真的是每天都在疯狂的涌现,今天分享一个国产大模型 InternLM-XComposer-2.5 中文名:浦语·灵笔2.5

仅使用 7B LLM 后端就达到了 GPT-4V 级别的能力,甚至从官方的论文测试结果来看,部分benchmark上的指标甚至超过了 GPT-4V

c107044c35038310d952367b5f0c7392.png

InternLM-XComposer-2.5

下面介绍一下主要功能:

  • 超高分辨率理解:浦语·灵笔2.5使用560×560分辨率的ViT视觉编码器增强了IXC2-4KHD中提出的动态分辨率解决方案,支持具有任意纵横比的高分辨率图像。

  • 细粒度视频理解:浦语·灵笔2.5将视频视为由数十到数千帧组成的超高分辨率复合图像,从而通过密集采样和每帧更高的分辨率捕捉细节。

  • 多轮多图像对话:浦语·灵笔2.5支持自由形式的多轮多图像对话,使其能够在多轮对话中与人类自然互动。

  • 网页制作:浦语·灵笔2.5可以通过遵循文本-图像指令来创建网页,包括源代码(HTML、CSS和JavaScript)的组合。

  • 高质量文本-图像文章创作:浦语·灵笔2.5利用特别设计的“思维链”(CoT)和“直接偏好优化”(DPO)技术,显著提高了其创作内容的质量。

  • 出色的性能:浦语·灵笔2.5在28个基准测试中进行了评估,在16个基准测试上优于现有的开源先进模型。它还在16个关键任务上超越或与GPT-4V和Gemini Pro表现相近。


1、支持与高分辨率图片对话的能力


1da90a537c7f8aab1d7a8ac836837ea8.png

2、多轮多图像对话

da718b9f866433a8596b9eb15ba046c9.png

3、视频理解

752f4480fdd10cbef2c2a944692c6646.png

4、网页制作

从简历到网页生成

dc34e58f2854fff374682f0be69863e7.png

根据指令生成网页

1a523c2bbfe1ee8f0f98a7e362363241.png

根据截图生成对应的网页

34c7b1d5b32156f3aacbb10d10a3c90d.png

5、文章创作

f033ed6b0d48c375e2abf899c5ad5aaf.png

论文和项目地址:

https://huggingface.co/internlm/internlm-xcomposer2d5-7b

https://arxiv.org/pdf/2407.03320

https://github.com/InternLM/InternLM-XComposer

整体框架

2778c8d9a4d1a0d9e8a6a9632205cdda.png

InternLM-XComposer-2.5(为简单起见,下文中称为 IXC2.5)的模型架构主要遵循 InternLM-XComposer2和 InternLMXComposer2-4KHD(为简单起见,称为 IXC2 和 IXC2-4KHD)的设计,包括轻量级视觉编码器 OpenAI ViT-L/14]、大型语言模型 InternLM2-7B和部分 LoRA以实现高效对齐。我们建议读者参阅 IXC2 和 IXC2-4KHD 论文以了解更多详细信息。

InternLM-XComposer2:https://arxiv.org/pdf/2401.16420 

InternLM-XComposer2-4KHD:https://arxiv.org/pdf/2404.06512

论文和项目地址:

https://huggingface.co/internlm/internlm-xcomposer2d5-7b

https://arxiv.org/pdf/2407.03320

https://github.com/InternLM/InternLM-XComposer

format,png 更多细节请查看论文,今天的内容就分享到这里了,如果对大家有帮助,欢迎多多点赞转发,可以留言分享或推荐你感兴趣的方向

课程推荐

对于希望入门 NeRF 或者对这个方向感兴趣但是又担心课程质量,怕被割的小伙伴,可以了解一下哈

扫描了解更多(添加助理,可以试看视频):

e2fe9092f861e08df3729671050a1408.png

下面是课程的大纲和往期学生的一些反馈,内容真实可靠,课程的单价不高,基本上就是赚口碑了,有兴趣的小伙伴可以扫描最下面的二维码了解!!!

课程大纲:

33f8e226523754120824e9f6fae9d147.jpeg

往期学员真实反馈:

1ab13bad0c556700548e020b3ff03b0a.png

  • 22
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值