多模态大模型 intern_vl 2.0版本解读

目录

更大规模的语言模型

多模态输入

多任务输出

性能表现


github:GitHub - OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的可商用开源多模态对话模型

论文:https://arxiv.org/pdf/2404.16821(还是internvl1.5)

Type Model Date HF Link MS Link Document
Multimodal Large Language Models InternVL2-1B 2024.07.08 🤗 link 🤖 link 📖 doc
InternVL2-2B 2024.07.04 🤗 link 🤖 link 📖 doc
InternVL2-4B 2024.07.04 🤗 link 🤖 link 📖 doc
InternVL2-8B 2024.07.04 🤗 link 🤖 link 📖 doc
InternVL2-26B 2024.07.04 🤗 link 🤖 link
### Qwen-VL 多模态大模型的开源项目地址 Qwen-VL 是通义千问系列中的多模态预训练模型之一,专注于视觉与语言的理解和生成能力。其相关研究和技术细节已经在学术界公开发布,并提供了相应的开源实现。 对于 Qwen-VL 的具体开源项目地址,可以参考以下链接: - **GitHub 仓库**: ```plaintext https://github.com/QwenLM/Qwen2-VL ``` 该仓库包含了 Qwen2-VL 的核心代码以及其实现方法[^2]。通过此链接,开发者能够获取到完整的训练脚本、推理代码以及其他辅助工具,从而支持从零开始构建或微调自己的多模态模型。 此外,在实际应用过程中,如果需要进一步了解如何部署或者优化这些模型,则可查阅官方文档及配套教程。例如,《Qwen-VL多模态大模型实践指南》提供了一个详细的入门流程说明,帮助用户快速上手并掌握关键技术要点[^1]。 最后值得注意的是,尽管当前版本已经开放了许多资源供公众使用,但由于某些特定功能可能涉及敏感数据处理或其他限制条件,部分高级特性或许仍处于闭源状态。因此建议密切关注官方更新动态以便及时获得最新进展信息。 ```python import torch from transformers import AutoTokenizer, AutoModelForVisionTextTasks # 加载 tokenizer 和模型 tokenizer = AutoTokenizer.from_pretrained("QwenLM/Qwen2-VL") model = AutoModelForVisionTextTasks.from_pretrained("QwenLM/Qwen2-VL") # 假设输入图像路径为 image_path image_input = ... # 图像预处理逻辑省略 text_input = "描述这张图片的内容" inputs = tokenizer(text=text_input, images=image_input, return_tensors="pt", padding=True) with torch.no_grad(): outputs = model(**inputs) print(outputs.logits.argmax(-1)) ``` 上述代码片段展示了基于 Hugging Face Transformers 库加载 Qwen2-VL 模型的一个简单例子,便于理解其基本操作方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

samoyan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值