原标题:Python3.8提取PDF中的内容
我们在工作,生活中,经常会有朋友或者上司给你一些资料,别人为了防止别人修改自己的文件,都会在输出的时候把文件格式变为PDF文件,我们需要从中提取文字内容出来,就一定要用到这个知识了。
有人说,网上有转换软件,我们这个文章不是给“网上有”思维的人看的。
我们需要逐步学会处理单个文件,网络文件,批量文件,这些等等类型的,我们都要学会处理,有的情况,网上就不一定有了,即使有,也是要收费的!
我们今天假定你已经安装好了pdfminer!
我们今天就来提取这个中国民航网上的一个PDF文件
这个文件的网址是:http://www.caac.gov.cn/XXGK/XXGK/TJSJ/201912/P020191220567438734410.pdf
我们先上一个示例给大家。
#! python3.8
# -*- coding: utf-8 -*-
import importlib
import sys
import random
from urllib.request import urlopen
from urllib.request import Request
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from pdfminer.pdfparser import PDFParser, PDFDocument
importlib.reload(sys)
user_agent = ['Mozilla/5.0 (Windows NT 10.0; WOW64)', 'Mozilla/5.0 (Windows NT 6.3; WOW64)',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
'Mozilla/5.0 (Windows; U; Windows NT 5.2)