python之pdf转txt的两种方法——pdfminer与ocr

最新推荐文章于 2023-01-18 17:42:29 发布

元宝sama

最新推荐文章于 2023-01-18 17:42:29 发布

阅读量2.6k

点赞数

本文链接：https://blog.csdn.net/qq_35398413/article/details/109318381

版权

需要将pdf转成txt，先后尝试使用python库pdfminer与pyocr(tesseract)。

1. pdfminer:

没研究原理，识别效果还可以。但识别效果是按照各个区域块去识别文字，而不是按行识别，所以格式混乱时不太推荐。当文字在pdf上无法选中时，pdfminer也无法识别该文字。好像还可以用来识别表格之类的，没试过。代码如下：

先装库：pip install pdfminer3k

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LTTextBoxHorizontal, LAParams

def pdf2txt_miner(f_from, f_to):
    # 按块识别, 可选中的文字
    print(f'start: {f_from}')
    fp = open(f_from, 'rb')
    # 用文件对象来创建一个pdf文档分析器
    praser = PDFParser(fp)
    # 创建一个PDF文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    praser.set_document(doc)
    doc.set_parser(praser)

    # 提供初始化密码
    # 如果没有密码 就创建一个空的字符串
    doc.initialize()

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

元宝sama

关注关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
python之pdf转txt的两种方法——pdfminer与ocr

各个系统安装命令：https://github.com/tesseract-ocr/tesseract/wiki#centos-fedora-scientificlinux-opensuse-rhel-packages
复制链接

扫一扫