Llama 3.2 Vision支持中文，多模态AI和图片推理

最新推荐文章于 2025-04-09 09:50:23 发布

程序猿李巡天

最新推荐文章于 2025-04-09 09:50:23 发布

阅读量4.5k

点赞数 22

文章标签： llama 人工智能深度学习机器学习 transformer 学习

本文链接：https://blog.csdn.net/m0_59235945/article/details/144356707

版权

Llama 3.2 Vision，开启多模态AI的新纪元。

AI正在迅速发展，多模态模型，即那些能够解释和生成多种格式数据的模型，正在成为创新的核心。Llama 3.2 Vision 是AI领域的突破性成果，它在图像推理、视觉识别、标题生成和基于图像的问答等方面带来了无与伦比的能力。Llama 3.2 Vision拥有两个版本，11B和90B参数。

Llama 3.2 Vision的Ollama地址：https://ollama.com/library/llama3.2-vision。

使用Lora版本，即可让Llama 3.2 Vision支持中文：https://huggingface.co/Kadins/Llama-3.2-Vision-chinese-lora。

1 Llama 3.2 Vision特点

1.1、支持多模态

Llama 3.2 Vision 能够处理文本和图像输入，能针对不同应用场景输出文本结果。具备以下功能：

手写识别：识别手写文字。
光学字符识别（OCR）：将图像中的文字转换为可编辑文本。
图表和表格解释：解析图表和表格中的数据。
图像问答：基于图像内容回答问题。

1.2、两种规模模型

Llama 3.2 Vision 提供两种不同参数规模的模型，以适应不同的应用需求：

11B 参数模型：适合处理小规模项目，至少需要8GB显存。这一模型在 Hugging Face 平台上开放，致力于开源和开放科学，推动人工智能的普及和发展。了解更多
90B 参数模型：专为需要高性能的任务设计，至少需要64GB显存。同样在 Hugging Face 平台提供，秉承开源精神，助力人工智能技术的民主化。了解更多

1.3、语言支持

Llama 3.2 Vision 在文本处理方面支持多种语言，具体包括：英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。通过Lora，还可支持中文。

对于结合图像和文本的任务，目前仅支持英语。

1.4、性能

Llama 3.2 Vision 在许多领先的开源和专有多模态模型中表现优异，其性能在行业标准的基准测试中屡获高分，证明了具备卓越的技术实力。

2 开始使用 Llama 3.2 Vision

步骤1：安装 Ollama

首先，需要从ollama.ai下载最新版本（0.4）的Ollama软件。安装完成后，在终端中执行以下命令来启动Llama 3.2 Vision的不同模型：

启动11B模型：
```
ollama run llama3.2-vision   
```
启动90B模型：
```
ollama run llama3.2-vision:90b   
```

步骤2：添加图像到命令提示

在命令提示中包含图像有两种简便方法：

1）拖放图像：直接将图像文件拖拽到终端窗口。

2）指定图像路径：在命令提示中输入图像的文件路径。

3 使用示例

3.1、Python 集成

使用 Ollama Python 库将 Llama 3.2 Vision 集成到 Python 中非常简单。以下是示例：

import ollama      response = ollama.chat(       model='llama3.2-vision',       messages=[           {               'role': 'user',               'content': '这张图片里有什么？',               'images': ['image.jpg']           }       ]   )   print(response)

3.2、JavaScript 集成

Ollama JavaScript 库可以轻松集成到 Web 应用程序中：

import ollama from 'ollama'      const response = await ollama.chat({     model: 'llama3.2-vision',     messages: [{       role: 'user',       content: '这张图片里有什么？',       images: ['image.jpg']     }]   })   console.log(response)

3.3、使用 cURL

快速测试时，使用以下 cURL 命令：

curl http://localhost:11434/api/chat -d '{     "model": "llama3.2-vision",     "messages": [       {         "role": "user",         "content": "这张图片里有什么？",         "images": ["<base64-encoded image data>"]       }     ]   }'

4 Llama 3.2 Vision的受益者

Llama 3.2 Vision 非常适合：

开发者：适合开发图像交互应用的开发者。
企业：需要高级OCR或文档处理工具的企业。
数据分析师：需要从图表和表格中解读视觉数据的分析师。
研究人员：探索多模态AI系统的研究人员。

5 结语

Llama 3.2 Vision不仅仅是工具，更是通往多模态AI未来的桥梁。凭借尖端的性能、语言多样性和无缝集成，这些模型赋予开发者和企业解锁创新的新水平和能力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述