用Marker,让你的文档转换像变魔术一样简单!
大家好!今天,我要给大家介绍一个神奇的项目——Marker。是一个能将PDF文件转换成Markdown格式的神器!
想象一下,你手里有一堆PDF文档,它们像顽固的石头一样,内容难以编辑和分享。但有了Marker,这些文档就能瞬间变成灵活的Markdown格式,让你轻松编辑、分享,甚至还能美化一番。
一、生活中的痛点
你有没有遇到过这样的烦恼?当你在手机上阅读一篇精彩的PDF文章,想要引用其中的内容时,却发现复制粘贴出来的格式一塌糊涂。或者,当你想在博客上分享一篇论文的精华部分,却因为PDF的不友好而望而却步。
别担心,Marker来拯救你了!
二、Marker的魔法
Marker就像一位魔法师,它能够快速且准确地将PDF文档转换成Markdown。这意味着什么?意味着你可以:
- 轻松地在文档中添加链接和图片。
- 保留原有的格式,比如表格和代码块。
- 甚至还能将复杂的数学公式转换成LaTeX格式。
三、Marker的工作流程
那么,Marker是如何施展它的魔法的呢?简单来说,它分为以下几个步骤:
- 文本提取:Marker首先提取PDF中的文本,如果需要,还会进行OCR操作。
- 页面布局检测:然后,它智能地识别页面布局和阅读顺序。
- 内容格式化:接着,Marker会清理并格式化每一部分内容。
- 最终整合:最后,将所有内容整合起来,进行后处理,生成Markdown文件。
四、应用场景
想象一下,你的朋友小明,他是个程序员,经常需要阅读和分享技术文档。有一天,他找到了一篇关于最新编程语言的PDF论文,但他不想在手机上放大缩小地阅读。于是,他用Marker轻轻一挥,论文就变成了Markdown格式,不仅在手机上阅读体验极佳,还能随时分享到他的技术博客上。
五、如何部署Marker至本地
如果你也被PDF文档的不便所困扰,或者你想让你的文档更加灵活和美观,那么Marker绝对是你的不二之选。快来体验一下,让你的文档转换像变魔术一样简单!下面我就带大家简单的部署并做个简单的demo,更多功能期待读者自己解锁哦!
环境说明,本文使用arm架构cpu,操作系统为ubuntu22.04,其他操作系统可作参考
1、项目拷贝
git clone https://github.com/VikParuchuri/marker.git
#连接超时可以尝试使用国内镜像
#git clone https://xplaza.cn/u8000/marker.git
2、安装依赖及maker
cd maker
pip install poetry
#如果pip报超时错误可尝试更换国内镜像源
#pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install opencv-python
sudo apt-get update
sudo apt-get install -y libgl1-mesa-dev
pip install maker-pdf
安装完成后即可查看是否安装成功,输入maker后按tab补全看是否能查询到指令
3、运行项目
好了,终于到激动人心的时刻了!下面就检验下我们的成果吧!
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English
下面简单欣赏一下效果吧!
pdf格式:
markdown格式:
六、项目代码地址
原文地址:https://www.xplaza.cn/topic/topicView?topicId=990