《告别PDF,迎接Markdown的革命——Marker项目介绍》


用Marker,让你的文档转换像变魔术一样简单!


大家好!今天,我要给大家介绍一个神奇的项目——Marker。是一个能将PDF文件转换成Markdown格式的神器!

想象一下,你手里有一堆PDF文档,它们像顽固的石头一样,内容难以编辑和分享。但有了Marker,这些文档就能瞬间变成灵活的Markdown格式,让你轻松编辑、分享,甚至还能美化一番。

一、生活中的痛点

你有没有遇到过这样的烦恼?当你在手机上阅读一篇精彩的PDF文章,想要引用其中的内容时,却发现复制粘贴出来的格式一塌糊涂。或者,当你想在博客上分享一篇论文的精华部分,却因为PDF的不友好而望而却步。

别担心,Marker来拯救你了!

二、Marker的魔法

Marker就像一位魔法师,它能够快速且准确地将PDF文档转换成Markdown。这意味着什么?意味着你可以:

  • 轻松地在文档中添加链接和图片。
  • 保留原有的格式,比如表格和代码块。
  • 甚至还能将复杂的数学公式转换成LaTeX格式。

三、Marker的工作流程

那么,Marker是如何施展它的魔法的呢?简单来说,它分为以下几个步骤:

  1. 文本提取:Marker首先提取PDF中的文本,如果需要,还会进行OCR操作。
  2. 页面布局检测:然后,它智能地识别页面布局和阅读顺序。
  3. 内容格式化:接着,Marker会清理并格式化每一部分内容。
  4. 最终整合:最后,将所有内容整合起来,进行后处理,生成Markdown文件。

四、应用场景

想象一下,你的朋友小明,他是个程序员,经常需要阅读和分享技术文档。有一天,他找到了一篇关于最新编程语言的PDF论文,但他不想在手机上放大缩小地阅读。于是,他用Marker轻轻一挥,论文就变成了Markdown格式,不仅在手机上阅读体验极佳,还能随时分享到他的技术博客上。

五、如何部署Marker至本地

如果你也被PDF文档的不便所困扰,或者你想让你的文档更加灵活和美观,那么Marker绝对是你的不二之选。快来体验一下,让你的文档转换像变魔术一样简单!下面我就带大家简单的部署并做个简单的demo,更多功能期待读者自己解锁哦!

环境说明,本文使用arm架构cpu,操作系统为ubuntu22.04,其他操作系统可作参考

1、项目拷贝

在这里插入图片描述


git clone https://github.com/VikParuchuri/marker.git
#连接超时可以尝试使用国内镜像
#git clone https://xplaza.cn/u8000/marker.git

2、安装依赖及maker

cd maker
pip install poetry
#如果pip报超时错误可尝试更换国内镜像源
#pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install opencv-python
sudo apt-get update
sudo apt-get install -y libgl1-mesa-dev
pip install maker-pdf

在这里插入图片描述

在这里插入图片描述

安装完成后即可查看是否安装成功,输入maker后按tab补全看是否能查询到指令

在这里插入图片描述

3、运行项目

好了,终于到激动人心的时刻了!下面就检验下我们的成果吧!

marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English

下面简单欣赏一下效果吧!

pdf格式:

在这里插入图片描述

markdown格式:

在这里插入图片描述

六、项目代码地址

Marker GitHub项目地址

Marker 国内镜像地址

原文地址:https://www.xplaza.cn/topic/topicView?topicId=990

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值