13、Ollama OCR

1、介绍

Ollama OCR,是一个强大的OCR(光学字符识别)工具包。利用 Ollama 的先进视觉语言模型从图像中提取文本,可作为 Python 包和 Streamlit 网络应用程序使用。具有支持多种视觉模型、多种输出格式、批量处理、图像预处理等功能。还介绍了安装方法、快速入门示例、输出格式细节以及 Streamlit 网络应用程序的特点。

1.1 多视觉模型支持

  • LLaVA 7B:用于实时处理的高效视觉语言模型(LLaVa 模型有时会生成错误的输出)
  • Llama 3.2 Vision:适用于复杂文档的高精度高级模型

1.2 输出格式

  • Markdown:保留带有标题和列表的文本格式
  • 纯文本:干净、简单的文本提取
  • JSON:结构化数据格式
  • 结构化:表和有序的数据
  • 键值对:提取标记信息

1.3 支持批处理

  • 并行处理多个图像
  • 每张图片的进度跟踪
  • 图像预处理(调整大小、标准化等)

2、安装测试

2.1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Andy_shenzl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值