一、图片中的数学公式识别有以下主要应用场景:
1. 电子教育:在线教育平台可以通过公式识别技术,自动识别课件、习题与试卷中的数学公式,实现公式的编辑、计算与理解,辅助教学与学习。
2. 科研论文处理:通过识别论文中的数学公式,可以实现公式编辑、排版与链接,提高论文的可读性与可操作性,方便读者理解论文内容。
3. 数学公式搜索:通过识别大量文档与网页中的数学公式,可以构建公式数据库和索引,实现基于公式内容的搜索与检索。这对于数学与工程领域的研究具有很高的应用价值。
4. 视觉问答系统:在视觉问答系统中,识别图像中的数学公式可以帮助系统理解图像内容,在回答问题的过程中将公式信息也考虑在内,使得回答更加准确全面。
5. 辅助计算:通过识别手写或打印的数学公式,结合手写体识别与公式计算技术,可以实现对手写公式的自动计算与解答,辅助人们高效地完成相关工作或学习任务。
6. 视觉推理:在许多视觉推理与公式推导任务中,识别图像或视频中的数学公式是理解其推理过程与结果的关键一步。只有准确识别各个步骤中的公式,才能模拟和重现整个推理过程。
7. 其它:还有笔记整理、公式输入法、视觉化学方程识别等应用。
总之,数学公式作为科学与工程中最重要的工具之一,其识别与理解具有很广阔的应用前景。这也为数学公式识别与相关研究提供了广泛的实践场景与数据支持。
二、CeleryMath 安装
2.1 下载地址
版本CeleryMath v0.1.4.1 的识别结果粘贴后需要首尾加“$”:“$粘贴内容$”,0.1.2版本输出的latex粘贴到vscode可以直接用。
https://github.com/MODCT/CeleryMath/releases/download/v0.1.4.1/celeryMath-v0.1.4-Windows_X64.7z
2.2 下载 celeryMah-weights-v0.1.0.zip
网址:https://github.com/MODCT/CeleryMath/releases/tag/v0.1.0
解压后得到 celeryMathEncoder.onnx、 celeryMathDecoder.onnx。
2.3 下载源码
git clone https://github.com/MODCT/CeleryMath.git
将源码中tokenizer.json 连同celeryMathEncoder.onnx、celeryMathDecoder.onnx 拷贝到 celeryMath.dist/conf下。
2.4 修改conf/conf.json 如下:
{
"tokenizer_path": "conf/tokenizer.json",
"encoder_path": "conf/celeryMathEncoder.onnx",
"decoder_path": "conf/celeryMathDecoder.onnx",
"snip_hotkey": "Ctrl+Alt+S",
"search_method": "greedy",
"sampling": "nucleus",
"temperature": 0.2,
"beam_width": 5,
"device": "cpu",
"pad_token": 0,
"bos_token": 1,
"eos_token": 2,
"max_seq": 512,
"min_img_size": [
32,
32
],
"max_img_size": [
192,
896
]
}
(optional)2.5. 下载onnxruntime的gpu版本
0.1.4版本添加了 GPU 支持。(仅限 CUDA)
要使用gpu,你需要从onnxruntime下载onnxruntime gpu库,并把
lib/onnxruntime_providers_cuda.dll 到 onnxruntime/capi/
https://github.com/microsoft/onnxruntime/releases
最后双击celeryMath.exe即可打开主界面。
三、使用
例1.
截图识别
复制得到:
\mathbf { j } = { \frac { \hbar } { 2 m i } } ( \psi ^ { * } \nabla \psi - \psi \nabla \psi ^ { * } )
右键公式,拷贝latex到剪切板
$粘贴内容$ :首尾“$”需要手动添加
例2.
The End