二进制python3.8_Python3.8提取PDF中的内容

原标题:Python3.8提取PDF中的内容

我们在工作,生活中,经常会有朋友或者上司给你一些资料,别人为了防止别人修改自己的文件,都会在输出的时候把文件格式变为PDF文件,我们需要从中提取文字内容出来,就一定要用到这个知识了。

有人说,网上有转换软件,我们这个文章不是给“网上有”思维的人看的。

我们需要逐步学会处理单个文件,网络文件,批量文件,这些等等类型的,我们都要学会处理,有的情况,网上就不一定有了,即使有,也是要收费的!

我们今天假定你已经安装好了pdfminer!

我们今天就来提取这个中国民航网上的一个PDF文件

这个文件的网址是:http://www.caac.gov.cn/XXGK/XXGK/TJSJ/201912/P020191220567438734410.pdf

我们先上一个示例给大家。

#! python3.8

# -*- coding: utf-8 -*-

import importlib

import sys

import random

from urllib.request import urlopen

from urllib.request import Request

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal, LAParams

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

from pdfminer.pdfparser import PDFParser, PDFDocument

importlib.reload(sys)

user_agent = ['Mozilla/5.0 (Windows NT 10.0; WOW64)', 'Mozilla/5.0 (Windows NT 6.3; WOW64)',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',

'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',

'Mozilla/5.0 (Windows; U; Windows NT 5.2)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值