【python自动化】读取pdf中全部文本信息并输出txt文档

最新推荐文章于 2022-07-31 12:11:04 发布

3ILIY

最新推荐文章于 2022-07-31 12:11:04 发布

阅读量366

点赞数

文章标签： python 自动化开发语言

本文链接：https://blog.csdn.net/ZHOUYANYIJIE/article/details/121092590

版权

这是现成代码，可以直接copy

 
from io import StringIO
from io import open
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
 
 
def read_pdf(pdf):
    # resource manager
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    # device
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)
    process_pdf(rsrcmgr, device, pdf)
    device.close()
    content = retstr.getvalue()
    retstr.close()
    # 获取所有行
    lines = str(content).split("\n")
    return lines
 
if __name__ == '__main__':
    with open('需要打开的pdf路径.pdf', "rb") as my_pdf:
        contentlist = read_pdf(my_pdf)

with open('想要存储的txt路径.txt','w') as text:
    content = ''.join(contentlist)
    text.write(content)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

3ILIY

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【python自动化】读取pdf中全部文本信息并输出txt文档

这是现成代码，可以直接copy from io import StringIOfrom io import openfrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom pdfminer.pdfinterp import PDFResourceManager, process_pdf def read_pdf(pdf): # resource manager..
复制链接

扫一扫