二进制python3.8_Python3.8提取PDF中的内容

原标题:Python3.8提取PDF中的内容

我们在工作,生活中,经常会有朋友或者上司给你一些资料,别人为了防止别人修改自己的文件,都会在输出的时候把文件格式变为PDF文件,我们需要从中提取文字内容出来,就一定要用到这个知识了。

有人说,网上有转换软件,我们这个文章不是给“网上有”思维的人看的。

我们需要逐步学会处理单个文件,网络文件,批量文件,这些等等类型的,我们都要学会处理,有的情况,网上就不一定有了,即使有,也是要收费的!

我们今天假定你已经安装好了pdfminer!

我们今天就来提取这个中国民航网上的一个PDF文件

这个文件的网址是:http://www.caac.gov.cn/XXGK/XXGK/TJSJ/201912/P020191220567438734410.pdf

我们先上一个示例给大家。

#! python3.8

# -*- coding: utf-8 -*-

import importlib

import sys

import random

from urllib.request import urlopen

from urllib.request import Request

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal, LAParams

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

from pdfminer.pdfparser import PDFParser, PDFDocument

importlib.reload(sys)

user_agent = ['Mozilla/5.0 (Windows NT 10.0; WOW64)', 'Mozilla/5.0 (Windows NT 6.3; WOW64)',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',

'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',

'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',

'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',

'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',

'Opera/9.27 (Windows NT 5.2; U; zh-cn)',

'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',

'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',

'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',

'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',

'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',

'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']

def parse(_path):

# fp = open(_path, 'rb') # rb以二进制读模式打开本地pdf文件

request = Request(url=_path, headers={'User-Agent': random.choice(user_agent)}) # 随机从user_agent列表中抽取一个元素

fp = urlopen(request) #打开在线PDF文档

# 用文件对象来创建一个pdf文档分析器

praser_pdf = PDFParser(fp)

# 创建一个PDF文档

doc = PDFDocument()

# 连接分析器 与文档对象

praser_pdf.set_document(doc)

doc.set_parser(praser_pdf)

# 提供初始化密码doc.initialize("123456")

# 如果没有密码 就创建一个空的字符串

doc.initialize()

# 检测文档是否提供txt转换,不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

else:

# 创建PDF资源管理器 来管理共享资源

rsrcmgr = PDFResourceManager()

# 创建一个PDF参数分析器

laparams = LAParams()

# 创建聚合器

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建一个PDF页面解释器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

# 循环遍历列表,每次处理一页的内容

# doc.get_pages() 获取page列表

for page in doc.get_pages():

# 使用页面解释器来读取

interpreter.process_page(page)

# 使用聚合器获取内容

layout = device.get_result()

# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,

for out in layout:

# 判断是否含有get_text()方法,图片之类的就没有

# if hasattr(out,"get_text"):

if isinstance(out, LTTextBoxHorizontal):

results = out.get_text()

print("results: " + results)

if __name__ == '__main__':

url = "http://www.caac.gov.cn/XXGK/XXGK/TJSJ/201912/P020191220567438734410.pdf"

parse(url)

将以上代码放入一个py格式的新文件pd1.py,复制到d:盘根目录下。

在cmd下执行python pd1.py

D:\>python3 pd1.py

WARNING:root:Cannot locate objid=9

results: 中国民航2019年10月份主要生产指标统计

results: 统计指标

results: 运输总周转量

results: 国内航线

results: 其中:港澳台航线

results: 国际航线

results: 旅客运输量

results: 国内航线

results: 其中:港澳台航线

results: 国际航线

results: 货邮运输量

results: 国内航线

results: 其中:港澳台航线

results: 国际航线

results: 旅客周转量

results: 国内航线

results: 其中:港澳台航线

results: 国际航线

results: 货邮周转量

results: 国内航线

results: 其中:港澳台航线

results: 国际航线

results: 计算

单位

results: 亿吨公里

results: 亿吨公里

results: 亿吨公里

results: 亿吨公里

results: 万人

results: 万人

results: 万人

results: 万人

results: 万吨

results: 万吨

results: 万吨

results: 万吨

results: 亿人公里

results: 亿人公里

results: 亿人公里

results: 亿人公里

results: 亿吨公里

results: 亿吨公里

results: 亿吨公里

results: 亿吨公里

results: 飞机日利用率

results: 小时/日

results: 正班客座率

results: 正班载运率

results: 旅客吞吐量

results: 其中:东部地区

results: 中部地区

results: 西部地区

results: 东北地区

results: 货邮吞吐量

results: 其中:东部地区

results: 中部地区

results: 西部地区

results: 东北地区

results: 起降架次

results: 其中:东部地区

results: 中部地区

results: 西部地区

results: 东北地区

results: %

results: %

results: 万人次

results: 万人次

results: 万人次

results: 万人次

results: 万人次

results: 万吨

results: 万吨

results: 万吨

results: 万吨

results: 万吨

results: 万架次

results: 万架次

results: 万架次

results: 万架次

results: 万架次

results: 本月

results: 当年累计

results: 实际

完成数

results: 比上年同月

增长%

results: 实际

完成数

results: 比上年同期

增长%

results: 一、运输完成情况

111.8

72.2

1.2

39.6

5698.2

5093.8

75.0

604.4

66.5

44.9

1.7

21.6

996.9

737.2

10.8

259.7

23.4

6.9

0.2

16.6

二、航班效率

9.2

83.1

72.3

三、机场完成情况

11678.6

6082.0

1350.4

3527.5

718.8

151.5

109.8

11.5

24.9

5.2

99.5

44.7

14.7

33.6

6.4

results: 5.9

5.9

-21.6

5.7

5.3

4.3

-21.2

15.1

5.3

7.7

-10.7

0.6

6.9

5.7

-22.9

10.5

2.2

8.4

-16.7

-0.1

results: 0.0

-0.1

-1.2

results: 4.8

3.1

8.6

6.0

6.4

5.3

3.2

11.9

10.7

12.0

1.7

1.1

2.2

1.4

6.3

results: 1077.5

693.1

14.7

384.5

55406.5

49207.3

967.6

6199.2

611.3

413.8

18.5

197.5

9826.0

7156.3

141.0

2669.7

214.7

63.7

2.4

151.0

results: 9.4

83.6

71.9

results: 113536.7

59258.1

13112.8

34103.9

7062.0

1386.0

1012.7

99.1

225.6

48.6

971.1

439.5

143.9

325.1

62.6

results: 7.5

8.0

1.3

6.7

8.3

7.3

3.4

16.9

1.0

1.9

-5.1

-0.8

9.8

8.6

2.8

13.2

-0.4

3.1

-5.6

-1.7

results: 0.0

0.0

-1.5

results: 7.2

5.5

11.6

8.8

6.7

1.1

-1.1

9.6

6.6

7.1

5.4

4.0

8.2

6.3

责任编辑:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值