第一个基于Llama 3的多模态大模型！Bunny-Llama-3-8B-V上线！-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

Bunny 团队推出第一个基于 Llama-3 的多模态大模型！Bunny-Llama-3-8B-V 正式上线，超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B模型。在众多主流 Benchmark 上表现良好，具有更好的识别、数学和推理能力。

项目主页:

https://github.com/BAAI-DCAI/Bunny

Bunny 模型采用了经典的 Encoder+Projector+LLM 架构，提供了一个可扩展的组合框架。支持多种 Vision Encoders，如 EVA CLIP、SigLIP 等，以及多种 LLM Backbone，包括 Phi-1.5、Phi-2、StableLM-2、Llama-3 等。灵活的架构设计便于用户基于Bunny开展大模型研究。

Bunny-Llama-3-8B-V可以精确理解图片并识别物体：

在这个餐厅中，Bunny-Llama-3-8B-V 理解并很好地描述了图片:

模型也有很强的OCR能力:

场景理解能力：

在 Bunny 数据集上训练好的 Bunny-Llama-3-8B-V 已经开放下载:

GitHub: https://github.com/BAAI-DCAI/Bunny

HuggingFace: https://huggingface.co/BAAI/Bunny-Llama-3-8B-V

Modelscope: https://modelscope.cn/models/BAAI/Bunny-Llama-3-8B-V

Wisemodel: https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V

预计会在未来发布性能更强悍的版本，STAY TUNED!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

​第一个基于Llama 3的多模态大模型！Bunny-Llama-3-8B-V上线！

第一个基于Llama 3的多模态大模型！Bunny-Llama-3-8B-V上线！