多模态AI模型再添猛将！Liquid：字节最新开源的多模态LLM，视觉与语言统一生成！

最新推荐文章于 2025-05-14 18:17:27 发布

大靠山

最新推荐文章于 2025-05-14 18:17:27 发布

阅读量878

点赞数 8

文章标签：人工智能汽车自动驾驶 3d 音视频

本文链接：https://blog.csdn.net/m0_59235245/article/details/147401820

版权

在多模态大模型（MLLM）竞速赛中，很多模型要么偏理解（看图说话），要么偏生成（画图作诗），更别提两者统一的效率与表现了。

最近，一款由字节跳动、华中科技大学和香港大学等机构联合开源的强大模型：Liquid，以其无缝集成的视觉理解与生成能力惊艳亮相。

它不仅能读懂图片和文字，还能生成图像与文本，且无需外部视觉模型。

Liquid 是一个 7B 参数的多模态大语言模型，基于离散编码技术，将图像转化为与文本一致的 token 序列，从而实现视觉理解、生成和多模态输出的统一处理。

支持任意宽高比图像生成，语言能力与 Llama 3.1 等相当。

主要功能

统一模态生成能力：一个模型搞定视觉+语言输入输出
强大视觉理解能力：在多项视觉问答、多模态推理任务中表现优异
中英文语言稳定：虽是多模态，中英文语言能力仍自然流畅
任意宽高比图像支持：适配横屏、竖屏、长图、漫画等生成场景
开源HF模型权重：可下载模型本地部署，支持微调

快速使用

Liquid 的本地部署和使用也相对较简单，由于它本质上是一个HuggingFace格式的语言模型，你只需要transformers库和一些基本组件即可运行。

安装步骤如下：

① 下载项目源码

git clone https://github.com/FoundationVision/Liquid.git
cd Liquid

② 安装依赖并执行Gradio演示

pip install gradio==4.44.1
pip install gradio_client==1.3.0

cd evaluation
python app.py

使用-推理测试：

# Engage in pure language dialogue.

python inference_t2t.py  --model_path Junfeng5/Liquid_V1_7B  --prompt  "Write me a poem about Machine Learning."


# image understanding
python inference_i2t.py --model_path Junfeng5/Liquid_V1_7B  --image_path samples/baklava.png   --prompt 'How to make this pastry?'


# image generation, add --load_8bit for GPU with less than 30GB VRAM
python inference_t2i.py   --model_path Junfeng5/Liquid_V1_7B --prompt "young blue dragon with horn lightning in the style of dd fantasy full body"

提示：如果在小于30GB显存的GPU上部署，可能需要在app.py中的AutoModelForCausalLM.from_pretrained中启用load_in_8bit，以避免图像生成时出现内存不足错误。

写在最后

Liquid = 一个模型通吃图像理解 + 图像生成 + 文本生成！

它正在代表一种新趋势：模态打通、结构简化、能力统一。

如果你对多模态 LLM、视觉问答、图文生成感兴趣，Liquid 将是不可错过的开源标杆项目！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述