python下wordpdf转换总结



近期涉及到了关于doc文档读取的处理,也查了很久,为了便于大家使用,故集大成一下。

Doc文档读取有如下几种:

1、从doc读取文本

       目前没有找到直接的方式,一般是先转为docx文件在处理。所使用工具为doc2doc(批量时可用),或人工另存处理。

 

2、从docx读取文本

       一般使用python-docx库的方法,但只支持创建新文档和读取一些基本的文件数据,如文件大小和文件标题,不支持正文读取。

       或直接从docx中读取xml的方法。

 

3、从pdf读取文本

       一般使用pdfminer3k库或pyPdf库。其中pyPdf用起来其实稍显麻烦,很多操作不够方便。pdfminer 对表格不友好,也可以将 PDF 转换为 text 文本,还可以转换为 HTML 等带有标签的文本。

       还有一种可以用pdf2htmlex(python),先把pdfhtml,接下来再用bs4来解析处理。这样的好处是处理html的工具非常非常丰富,且pdf2htmlex对原页面的效果保持得特别好,特别是对于那些个用wordlatex导出的pdf里,大量数据图表里的标签可以很方便地提取所需的值。

 

4、把pdf中图存为jpg文件

       一般可以使用PythonMagick库。

 

以上的代码处理,均在https://github.com/renwoxing2016/

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值