体验 DeepSeek 多模态大模型 Janus-Pro-7B

含有图片的链接:
https://mp.weixin.qq.com/s/i6kuVcGU1CUMYRPDM-bKog?token=2020918682&lang=zh_CN

继上篇文章下载了 Janus-Pro-7B 后,准备本地运行时发现由于电脑配置配置太低(显存小于24G),无法运行,因此只能用线上运行的网站体验一下了。

在 HF 网站的 deepseek-ai 主页上有在线体验的入口:

https://huggingface.co/deepseek-ai 或 https://hf-mirror.com/deepseek-ai(国内)。

点进去后:

发一张图片试试:

识别还是比较准确的,再换一张难度大一点的:

勉强也算准确,只是图片中没有 Git,描述中却出现了 Git,有点无中生有了。

再来试试文生图,文生图只支持英语,如果用中文会生成相差十万八千里的图片:

换成英语就正常了:

不过图像质量仍然有待提高。当然也可能是提示词和参数应该改善。

虽然和想象中的“高山流水”不太一样,但是也算没错了。

体验是免费的,但是有次数限制,用了4-5次后就暂时不能用了:

总的来说,Janus-Pro-7B 还是比较强大的,能够在评测中超过 DALL3 也是实至名归。

### DeepSeek 多模态大模型 Janus-Pro-7B 使用指南 #### 获取模型 为了使用 Janus-Pro-7B 模型,需先从指定网站下载模型文件。访问链接可获得最新版本的模型权重和其他必要资源[^2]。 ```bash # 下载命令示例(具体路径可能有所不同) wget https://huggingface.co/deepseek-ai/Janus-Pro-7B/archive/main.zip unzip main.zip -d ./janus_pro_7b/ ``` #### 安装依赖库 安装必要的 Python 库来加载并运行此多模态模型。推荐使用虚拟环境隔离项目依赖项。 ```bash pip install transformers torch accelerate safetensors ``` #### 加载预训练模型 通过 Hugging Face 的 `transformers` 库可以轻松加载已保存的模型及其配置。 ```python from transformers import AutoModelForVision2Seq, AutoProcessor model_name_or_path = "deepseek-ai/Janus-Pro-7B" processor = AutoProcessor.from_pretrained(model_name_or_path) model = AutoModelForVision2Seq.from_pretrained(model_name_or_path) ``` #### 数据准备与处理 对于输入数据,无论是文本还是图像都需要经过特定方式编码成适合喂给神经网络的形式。 ```python image_url = "http://example.com/path/to/image.jpg" # 替换成实际图片URL text_input = "描述这张照片的内容" inputs = processor(image=image_url, text=text_input, return_tensors="pt") ``` #### 执行推理任务 准备好所有前提条件之后就可以调用模型来进行预测了。这里展示了一个简单的例子用于说明如何执行一次前向传播操作得到输出结果。 ```python with torch.no_grad(): outputs = model.generate(**inputs) generated_text = processor.decode(outputs[0], skip_special_tokens=True) print(generated_text) ``` #### 进阶应用案例 除了基本的文字到文字转换外,Janus Pro 7B 支持更多样化的应用场景,比如基于视觉的理解能力以及跨媒体的信息生成等功能[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值