含有图片的html生成pdf_PDF文件如何转成markdown格式

本文介绍了如何将含有图片的PDF文件转换为Markdown格式。首先使用PDF转Word工具,然后通过Typora获取Markdown源码。由于转换后的Markdown包含本地图片,为使其在支持Markdown的平台上正常显示,需要将图片上传到网络并替换为网络URL。作者提供了一个工具,用于合并Markdown中的本地图片路径与在线图片URL,确保图片在发布后能正确显示。
摘要由CSDN通过智能技术生成

百度上根据pdf转makrdown为关键字进行搜索,结果大多数是反过来的转换,即markdown文本转PDF格式。

01c39710cef18f1582052d577d12ffb0.png

但是PDF转markdown的解决方案很少。

正好我工作上有这个需求,所以自己实现了一个解决方案。

下图是一个用PDF XChange Editor打开的PDF文件,我想将其内容通过markdown格式导出。

431a0130d83d43a16e25578e9c274f6a.png

(1) 首先将该PDF导出成word格式,后缀.docx

10b406ba401af79f206cb8a74dcca2e1.png
b43c0dbf30bff39e67c83c5acd9b36f5.png

(2) 使用typora获得该word文档的markdown源代码:

38790e857a120ef5adf98b9b4c8de1ca.png

此时任务只完成了一半,因为typora这个工具转换成的markdown格式,如果原始的word文档里包含图片,这些图片以本地图片的形式存在于markdown里,那我如果直接将包含了这些本地图片的标签的markdown发布到简书,CSDN,开源中国,腾讯云,阿里云这些支持markdown的社区时,这些本地图片将无法显示。

b436ad51575d91033db0b2652bdbbec9.png

因此我们必须找到一个高效的方法,将word里包含的本地图片先上传到网络上,再用生成的包含了图片网络url的markdown标签替换本地图片标签。

(3) 把word文件的后缀从.docx改成.zip, 解压后,在文件夹word的子文件夹media里能找到所有的本地文件。

d2954121a5cbb6cb3c0a37b3f2d16579.png

把这些本地文件全部上传到网站,生成下面这些url:

8574e7938de8a417ff18ffafbbe3c14b.png

我写了一个工具,可以把仅包含了本地图片标签的markdown源代码和包含了上述在线图片url标签的源代码做一个合并,后并后,本地图片标签会被在线图片标签取代:

391b6c34f81795c9f51a8f7d0ae56b88.png

这个工具可以从我github上获得:

https://github.com/i042416/KnowlegeRepository/blob/master/practice/255_markdown_tool.html

下图就是我的原始PDF转换成markdown格式后发布在某社区上的效果,和原始PDF外观完全一致:

bac89fc145d64fd83fef4f9d3f388348.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值