图片公式识别@文档公式识别@表格识别@在线和离线OCR工具

目录

abstract

普通文字识别

本地软件识别公式

扩展插件下载

小结

在线识别

网站/API👺

Quicker整合(推荐)

可视化编辑和识别公式

其他

多模态大模型识别图片中的公式

排版

开源模型



abstract


本文介绍免费图片文本识别(OCR)工具,包括普通文字识别,公式识别,甚至是手写公式和文字
重点在于免费和好用,不失选择的多样性
虽然公式识别的难度远大于普通文字的识别难度,但是随着技术的发展,公式识别也会像文本识别那样易用,免费
其他重要的AI应用(这里不展开)
还有表格识别,尤其是复杂表格的识别
逼真(接近真人播音员朗读效果)的文本朗读语言生成
本文内容可能会随着时间的逝去而过时,某些东西将来可能不那么好用,也可能变得好用,也可能出现更好的工具


普通文字识别


这类软件或平台十分的多,早已普及,比如qq/微信都有文本识别的功能
有人把微信里的ocr功能作为后台设计了一个本地OCR,并且接入语音朗读
那么主要比较的是识别速度和精度,以及易用程度,比如能否离线识别,连续识别的体验,跨平台如何,费用等方面
当然能够识别公式的平台通常也能识别普通文本(但是个别模型为了提高公式识别精度,仅设计为用来识别公式)


本地软件识别公式


 Umi-OCR: Umi-OCR (gitee.com)
是一款免费、开源、可批量的离线 OCR 软件,基于 PaddleOCR,适用于 Windows10/11 平台
该链接同步github链接,源链接访问比较慢: hiroi-sora/Umi-OCR: OCR software, free and offline. (github.com)
软件主体和软件的插件可以用镜像加速下载


扩展插件下载


 hiroi-sora/Umi-OCR_plugins: Umi-OCR 插件库 (github.com)
该软件是多功能OCR软件,可以用于普通图片中文本识别,也可以识别二维码,甚至数学公式
识别数学公式需要下载插件中的体积较大的模型
 hiroi-sora/Umi-OCR_plugins: Umi-OCR 插件库 (github.com)
插件名为win7开头,表示:平台兼容win7 以上(win10,11都可以用),64 位
请仔细阅读仓库介绍和使用说明


小结


软件有多个模型供下载使用,识别公式的速度不是很快,模型推理时对于磁盘有一定的读写量
在有需要说别的时候,我个人会优先使用在线工具识别


在线识别


网站/API👺


 Document & Formula OCR Service (simpletex.cn)👺
目前免费,支持手写符号识别,图片公式识别,文档公式识别
并且有灵活的使用方式,包括api方式看起来很不错
在线公式编辑器 Document Editor (simpletex.net)
 Doc2X
精度也是不错的,有一定量的免费额度,次数蛮多的
可以识别公式,也可以识别表格,包含公式的表格也不在话下,能够导出到word文件等
 Pix2Text (P2T) - Free Mathpix Alternative (breezedeus.com)
模型在成长期
有免费额度,有开源版的模型


Quicker整合(推荐)


如果经常使用,推荐用Quicker整合,实现截屏识别
 公式识别3 动作信息 - Quicker (getquicker.net)👺
使用Quicker软件(需要常驻后台)及其动作插件动作实现截图识别公式,查看该链接教程进行配置
可以选择多种api,教程中给出了推荐,目前用simpletex提供的api来识别很不错
经常使用的话十分推荐此方案,如果只是偶尔用用,那么用在线网站就够了
 Doc2X - by 蓝莓派 - 动作信息 - Quicker (getquicker.net)


可视化编辑和识别公式


 在线LaTeX公式编辑器-编辑器 (latexlive.com)
需要登录,每个账户每天有少量免费次数(可能会调整)
这类普通账户有免费次数的机制有的人会注册几个账号,甚至叫亲朋好友帮忙注册,不太优雅,用得多的话可以用其他免费的代替品


其他


著名的收费公式识别(具有少量的免费额度
 Mathpix OCR User Guide: Examples of Rendered Math and Text
 图片转LaTeX公式在线 - LaTeX公式识别 - 照片转换成LaTeX公式 - 白描网页版 (baimiaoapp.com)

多模态大模型识别图片中的公式


做以下测试具有时效性,测试时都是免费功能,后续可能会有优化,也可能不再免费
模型

示例

评价(仅先测试时的版本)

通义千问

效果尚可,需要等一会,复杂公式需要久一些

点击通义回复的右下角复制按钮获得latex代码;但是默认缺乏排班,需要告诉模型追加源代码输出,而不仅仅是渲染后的公式

文心一言

免费模型(3.5)测的,一般般,复杂公式识别不全,期待优化

大模型很多,这里就举出两个例子,其他的模型比如智谱清言也可以识别,但是同样的例子出现了错误,将来可能会改进


排版


注意到通义模型可以较好的识别公式,个别细节可能需要微调
我们也可以继续和模型交谈,让他输出源代码,或者排版,甚至给出改进建议,例如我要求输出公式源代码而非展示markdown渲染结果


开源模型


 Pix2Text/README_cn.md at main · breezedeus/Pix2Text (github.com)
当然还有其他的,一般能用在线免费的,就不需要本地部署了
 

  • 22
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值