二进制python3.8_Python3.8提取PDF中的内容

最新推荐文章于 2022-11-28 04:26:28 发布

weixin_39638708

最新推荐文章于 2022-11-28 04:26:28 发布

阅读量565

点赞数

文章标签：二进制python3.8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39638708/article/details/111884154

版权

原标题：Python3.8提取PDF中的内容

我们在工作，生活中，经常会有朋友或者上司给你一些资料，别人为了防止别人修改自己的文件，都会在输出的时候把文件格式变为PDF文件，我们需要从中提取文字内容出来，就一定要用到这个知识了。

有人说，网上有转换软件，我们这个文章不是给“网上有”思维的人看的。

我们需要逐步学会处理单个文件，网络文件，批量文件，这些等等类型的，我们都要学会处理，有的情况，网上就不一定有了，即使有，也是要收费的！

我们今天假定你已经安装好了pdfminer!

我们今天就来提取这个中国民航网上的一个PDF文件

这个文件的网址是：http://www.caac.gov.cn/XXGK/XXGK/TJSJ/201912/P020191220567438734410.pdf

我们先上一个示例给大家。

#! python3.8

# -*- coding: utf-8 -*-

import importlib

import sys

import random

from urllib.request import urlopen

from urllib.request import Request

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal, LAParams

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

from pdfminer.pdfparser import PDFParser, PDFDocument

importlib.reload(sys)

user_agent = ['Mozilla/5.0 (Windows NT 10.0; WOW64)', 'Mozilla/5.0 (Windows NT 6.3; WOW64)',

'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',

'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',

'Mozilla/5.0 (Windows; U; Windows NT 5.2)

最低0.47元/天解锁文章

weixin_39638708

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
二进制python3.8_Python3.8提取PDF中的内容

原标题：Python3.8提取PDF中的内容我们在工作，生活中，经常会有朋友或者上司给你一些资料，别人为了防止别人修改自己的文件，都会在输出的时候把文件格式变为PDF文件，我们需要从中提取文字内容出来，就一定要用到这个知识了。有人说，网上有转换软件，我们这个文章不是给“网上有”思维的人看的。我们需要逐步学会处理单个文件，网络文件，批量文件，这些等等类型的，我们都要学会处理，有的情况，网上就不一定有...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。