1、介绍
Ollama OCR,是一个强大的OCR(光学字符识别)工具包。利用 Ollama 的先进视觉语言模型从图像中提取文本,可作为 Python 包和 Streamlit 网络应用程序使用。具有支持多种视觉模型、多种输出格式、批量处理、图像预处理等功能。还介绍了安装方法、快速入门示例、输出格式细节以及 Streamlit 网络应用程序的特点。
1.1 多视觉模型支持
- LLaVA 7B:用于实时处理的高效视觉语言模型(LLaVa 模型有时会生成错误的输出)
- Llama 3.2 Vision:适用于复杂文档的高精度高级模型
1.2 输出格式
- Markdown:保留带有标题和列表的文本格式
- 纯文本:干净、简单的文本提取
- JSON:结构化数据格式
- 结构化:表和有序的数据
- 键值对:提取标记信息
1.3 支持批处理
- 并行处理多个图像
- 每张图片的进度跟踪
- 图像预处理(调整大小、标准化等)