Marker把PDF转换成markdown格式输出

目录

一.Marker介绍

二.Marker把PDF格式转为markdown输出

        1.下载运行环境

        2.进入文件夹

        3. 运行以下代码,转markdown

        4.结果可在输出文件夹中找到.md文件


一.Marker介绍

        Marker是一款能够快速且准确地将PDF转换为Markdown的工具。它支持所有语言,最适合不需要大量 OCR 的数字 PDF。Marker基于管道式的深度学习模型。工作原理如下:

        1.提取文本OCR

        2.检测页面布局并找到阅读顺序

        3.格式化每个block

        4.合并每个block并后处理完整的文本

二.Marker把PDF格式转为markdown输出
        1.下载运行环境
pip install marker-pdf
         2.进入文件夹

        进入存放刚刚下载好的环境的那个文件夹,一般都是在自己的虚拟环境的Scripts里有一个marker-single.exe和marker.exe的运行程序。marker-single是处理一个PDF文件的,marker是处理多个PDF文件的。

  

        3. 运行以下代码,转markdown

marker_single 要处理的PDF文件路径 存放处理好的markdown的文件夹 --batch_multiplier 2 --max_pages 10 

        4.结果可在输出文件夹中找到.md文件

        

        效果对比:

        ​​

        

        

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值