python3读取本地_大神大神，小白提问：“读取本地pdf”。

最新推荐文章于 2023-03-01 14:53:38 发布

weixin_39922004

最新推荐文章于 2023-03-01 14:53:38 发布

阅读量65

点赞数

文章标签： python3读取本地

该楼层疑似违规已被系统折叠隐藏此楼查看此楼

#! python3

# -*- coding: utf-8 -*-

"""

@Time : 2017/8/17 18:07

@Author : typhoon

@Site :

@File : test_has_package_python3.py

@Software: PyCharm

@desc : parse pdf

"""

import importlib

import sys

import random

from urllib.request import urlopen

from urllib.request import Request

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal, LAParams

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

from pdfminer.pdfparser import PDFParser, PDFDocument

'''

解析pdf 文本，保存到txt文件中

'''

importlib.reload(sys)

user_agent = ['Mozilla/5.0 (Windows NT 10.0; WOW64)', 'Mozilla/5.0 (Windows NT 6.3; WOW64)',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',

'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',

'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',

'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',

'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',

'Opera/9.27 (Windows NT 5.2; U; zh-cn)',

'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',

'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',

'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',

'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',

'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']

def parse(_path):

fp = open(_path, 'rb') # rb以二进制读模式打开本地pdf文件

request = Request(open=_path, headers={'User-Agent': random.choice(user_agent)}) # 随机从user_agent列表中抽取一个元素

#fp = urlopen(request) #打开在线PDF文档

# 用文件对象来创建一个pdf文档分析器

praser_pdf = PDFParser(fp)

# 创建一个PDF文档

doc = PDFDocument()

# 连接分析器与文档对象

praser_pdf.set_document(doc)

doc.set_parser(praser_pdf)

# 提供初始化密码doc.initialize("123456")

# 如果没有密码就创建一个空的字符串

doc.initialize()

# 检测文档是否提供txt转换，不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

else:

# 创建PDf资源管理器来管理共享资源

rsrcmgr = PDFResourceManager()

# 创建一个PDF参数分析器

laparams = LAParams()

# 创建聚合器

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建一个PDF页面解释器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

# 循环遍历列表，每次处理一页的内容

# doc.get_pages() 获取page列表

for page in doc.get_pages():

# 使用页面解释器来读取

interpreter.process_page(page)

# 使用聚合器获取内容

layout = device.get_result()

# 这里layout是一个LTPage对象里面存放着这个page解析出的各种对象一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等想要获取文本就获得对象的text属性，

for out in layout:

# 判断是否含有get_text()方法，图片之类的就没有

# if hasattr(out,"get_text"):

if isinstance(out, LTTextBoxHorizontal):

results = out.get_text()

print("results: " + results)

if __name__ == '__main__':

open = "NIDAQ_ProgrammingGuideI.pdf.pdf"

parse(open)

错误：

D:\python.workspace\hello_prj4\venv\Scripts\python.exe D:/python.workspace/hello_prj4/pdf.py

Traceback (most recent call last):

File "D:/python.workspace/hello_prj4/pdf.py", line 108, in

parse(open)

File "D:/python.workspace/hello_prj4/pdf.py", line 55, in parse

fp = open(_path, 'rb') # rb以二进制读模式打开本地pdf文件

TypeError: 'str' object is not callable

Process finished with exit code 1

weixin_39922004

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python3读取本地_大神大神，小白提问：“读取本地pdf”。

该楼层疑似违规已被系统折叠隐藏此楼查看此楼#! python3# -*- coding: utf-8 -*-"""@Time : 2017/8/17 18:07@Author : typhoon@Site :@File : test_has_package_python3.py@Software: PyCharm@desc : parse pdf"""impo...
复制链接

扫一扫