moondream-开创性的小型视觉语言模型

公众号:【可乐前端】,每天3分钟学习一个优秀的开源项目,分享web面试与实战知识。

每天3分钟开源

hi,这里是每天3分钟开源,很高兴又跟大家见面了,今天介绍的开源项目简介如下:

仓库名:vikhyat/moondream

项目名:moondream

开源地址:https://github.com/vikhyat/moondream

主要语言: Python

stars数量:2878

forks数量:239

开源协议:Apache License 2.0

一句话介绍

这是一个名为 moondream 的小型视觉语言模型,可以在任何地方运行,并且表现优异。

详细描述

moondream 是一个小型的视觉语言模型,通过 SigLIPPhi 1.5 的权重初始化,具有18.6亿的参数模型。

它不仅能够适应各种环境,而且具有出色的性能。该模型可以运行在任何地方,既可以通过 transformers 使用,也可以通过本仓库进行使用。

推荐使用 transformers,因为它提供了最新的模型版本和便捷的使用方式。

模型定期更新,因此建议将模型版本固定到特定的发布版本,以确保持续的效果。

具体功能

在这里插入图片描述

  1. 图像问题回答:模型可以回答关于图像的问题,例如“这个女孩在做什么?”、“女孩的头发是什么颜色?”等。
  2. 图像描述:模型可以对图像进行描述,例如“图片中有一个架子,上面放着各种电子设备。左边有一把椅子,背景是砖墙。”等。
  3. 批量推断:模型支持批量推断,可以同时处理多个图像和问题。

如何使用

在使用 moondream 时,有两种主要的使用方式:

  • 使用 transformers(推荐):
pip install transformers timm einops
from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model_id = "vikhyatk/moondream2"
revision = "2024-03-06"

model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, revision=revision)
tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)

image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "Describe this image.", tokenizer))
  • 使用本仓库:

首先,克隆此仓库并安装依赖。

pip install -r requirements.txt

然后,可以使用 sample.py 提供的命令行界面运行模型。当没有提供 --prompt 参数时,脚本将允许你交互式地提问。

python sample.py --image [IMAGE_PATH] --prompt [PROMPT]

此外,还可以使用 gradio_demo.py 脚本启动模型的 Gradio 界面。

python gradio_demo.py

webcam_gradio_demo.py 提供了一个 Gradio 界面,该界面使用你的网络摄像头作为输入,并实时进行推断。

python webcam_gradio_demo.py

总的来说,moondream 是一个功能强大、使用灵活的视觉语言模型。无论你是一名开发者,还是一名研究人员,都可以通过 moondream 获得高质量的视觉语言处理服务。

最后

感谢您的阅读,这里每天都会推送优秀的开源项目,如果觉得有帮助的话,一键三连一下吧~

  • 11
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值