python 获取PDF中文字(PDFminer)

对于可以解析成TXT 的PDF 来说是比较好处理的。
安装需要的包

pip install pdfminer

具体步骤:
1.open 以二进制的办法打开PDF 文件
2.利用PDFParser为打开的文件创建一个pdf文档分析器
3.创建一个PDF文档
4. 连接分析器 与文档对象: parser.set_document(doc);doc.set_parser(parser)
5. 提供初始化密码; 如果没有密码 就创建一个空的字符串:doc.initialize()
6. 检测文档是否提供txt转换,不提供就忽略; 当然对于不提供txt转换的PDF 可以采用OCR 技术;

if not doc.is_extractable:
    raise PDFTextExtractionNotAllowed

7.创建PDf 资源管理器 来管理共享资源;

 rsrcmgr = PDFResourceManager()
  1. #创建一个PDF设备对象

    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)

9.处理文档对象中每一页的内容

doc.get_pages() 获取page列表

10.循环遍历列表,每次处理一个page的内容
#这里layout是一个LTPage对象 里面存放着 这个pa

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值