目录
一.Marker介绍
Marker是一款能够快速且准确地将PDF转换为Markdown的工具。它支持所有语言,最适合不需要大量 OCR 的数字 PDF。Marker基于管道式的深度学习模型。工作原理如下:
1.提取文本OCR
2.检测页面布局并找到阅读顺序
3.格式化每个block
4.合并每个block并后处理完整的文本
二.Marker把PDF格式转为markdown输出
1.下载运行环境
pip install marker-pdf
2.进入文件夹
进入存放刚刚下载好的环境的那个文件夹,一般都是在自己的虚拟环境的Scripts里有一个marker-single.exe和marker.exe的运行程序。marker-single是处理一个PDF文件的,marker是处理多个PDF文件的。
3. 运行以下代码,转markdown
marker_single 要处理的PDF文件路径 存放处理好的markdown的文件夹 --batch_multiplier 2 --max_pages 10
4.结果可在输出文件夹中找到.md文件
效果对比: