python批量提取pdf的数据_Python2 - 批量提取pdf中所有单词

最新推荐文章于 2024-05-28 22:22:50 发布

weixin_39712969

最新推荐文章于 2024-05-28 22:22:50 发布

阅读量395

点赞数

文章标签： python批量提取pdf的数据

本文仅限技术研究与讨论，严禁用于非法用途，否则产生的一切后果自行承担

这个代码是为了Hack.lu CTF 2017-Flatscience-writeup 补上的，传送门# !/usr/bin/python

# - * - coding:utf-8 - * -

'''

@author: soapffz

@fucntion: 批量提取pdf中所有单词(python2)

@time: 2019-01-06

'''

from cStringIO import StringIO

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFPage

import os

import re

def convert(path):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

device = TextConverter(rsrcmgr, retstr, codec = 'utf-8', laparams = LAParams())

interpreter = PDFPageInterpreter(rsrcmgr, device)

with open(path, 'rb')as fp:

for page in PDFPage.get_pages(fp, set()):

interpreter.process_page(page)

text = retstr.getvalue()

device.close()

retstr.close()

return text

def main(path):

os.chdir(path)# 切换工作目录

pdf_path = [i for i in os.listdir("./")if i.endswith("pdf")]

words_list = []

for i in pdf_path:

print "Searching word in " + i

pdf_text = convert(i)

words = re.findall('[A-Za-z]+', pdf_text)

for i in words:

if i not in words_list:

words_list.append(i)

#print words_list

# 返回包含所有单词的一个list

return words_list

if __name__ == "__main__":

path = r"C:\Users\soapffz\Desktop\to_dir"

# 注意复制的目录前面可能有一个看不见的特殊符号

main(path)

效果如下：

本文永久链接：https://soapffz.com/python/9.html，未经许可禁止转载

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39712969

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【python爬虫】批量识别pdf中的英文，自动翻译成中文下

阿黎逸阳的博客

09-03

2549

python爬虫实现pdf中英文转中文

利用Python提取PDF文件中的文本信息

仙路尽头谁为峰

09-20

2万+

如何利用Python提取PDF文件中的文本信息日常工作中我们经常会用到pdf格式的文件，大多数情况下是浏览或者编辑pdf信息，但有时候需要提取pdf中的文本，如果是单个文件的话还可以通过复制粘贴来直接将文本信息复制出来，但如果是要提取成本上千个pdf文件中的文本信息，有没有什么比较快捷的方式可以实现自动化提取呢？答案是通过python实现pdf文本信息的批量自动化提取，这里介绍通过以下五个库来实现信息提取：PyPDF2, Textract, tika, pdfPlumber, pdfMiner，原文参考这

参与评论您还未登录，请先登录后发表或查看评论

python如何提取英语pdf内容并翻译

12-20

本文实例为大家分享了python提取英语pdf内容并翻译的具体代码，供大家参考，具体内容如下前期准备工作：翻译接口：调用的是百度翻译的api （注册后，每个月有2百万的免费翻译字符数。） pdfminer3k： pdfminer3k是pdfminer的Python 3端口。 PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同，它完全专注于获取和分析文本数据。 PDFMiner允许获取页面中文本的确切位置，以及字体或线条等其他信息。它包括一个PDF转换器，可以将PDF文件转换为其他文本格式（如HTML）。它有一个可扩展的PDF解析器，可用于其他目的而不是文本

从pdf提取单词

qq_43539664的博客

05-14

1252

背单词的时候为了不看原文意思，就把pdf里面有详细解释的单词提取出来了附上python程序 from pdfminer.high_level import extract_text from io import StringIO import re i = 0 file = open("./output/worlds.txt","w") while(True): one_Page = extract_text("./pdf_files/test.pdf",

用Sublime批量提取单词

机器时代

09-28

2869

用Sublime批量提取单词打散单词：选中文章中标志性的分隔符，Ctrl + H打开替换对话框，按下正则表达式按钮，replace with 中填写\n，替换重复第1步，替换所有标志性分隔符后继处理：如果某些单词前面有空白的，使用\s进行匹配替换所有单词都打散之后，使用\n+匹配空行进行替换搞定，是不是很方便 :)

python实现：读取PDF文件中的英文单词，并将前二十个高频词储存到一个docx文档中

qq_58153224的博客

09-30

3241

总体思路如下： 1.读取PDF文件，将其中的英文单词提取出来 2.获得每个英文单词的词频，通过字典将英文单词及其词频配对 3.将英文单词按照词频由大到小排序 4.创建并写入docx文档首先打开PDF文件用到了pdfplumber第三方库，具体应用如此下： with pdfplumber.open(pdf_path) as pdf_file: content = '' for i in range(len(pdf_file.pages)): #

python提取pdf文件数据

weixin_46700209的博客

07-20

5080

提取pdf文件数据内容

python提取pdf发票信息_PDF电子发票内容提取

weixin_39781945的博客

12-17

3357

网页版程序使用地址：[在线使用](https://www.yooongchun.com/apps)摘要本文介绍如何提取PDF版电子发票的内容。1. 加载内容首先使用Python的pdfplumber库读入内容。```pythonFILE=r"data/test-2.pdf"pdf=pb.open(FILE)page=pdf.pages[0]```接着读取内容并提取线段。```pythonwords...

数据可视化日记：使用pdfminder3k批量提取英文pdf文献内容_再使用wordcloud作词云

12-21

在本案例中，我们探讨的是如何使用`pdfminer3k`库来批量提取英文PDF文献内容，并结合`wordcloud`库创建词云图。 `pdfminer3k`是一个用于解析PDF文档的Python库，它能够提取文本、图像和其他有用信息。在安装`pdf...

python读取xps文件_Python操作PDF-文本和图片提取（使用PyPDF2和PyMuPDF）

weixin_31974443的博客

01-15

1123

PDF文件格式如今，可移植文档格式(PDF)属于最常用的数据格式。在1990年，PDF文档的结构由Adobe定义。PDF格式的思想是，对于通信过程中涉及的双方(创建者，作者或发送者以及接收者)而言，传输的数据/文档看起来完全相同。工具和库适用于Python的PDF工具，模块和库的可用解决方案范围有些混乱，需要花一点时间弄清楚什么是什么，以及哪些项目需要连续维护。根据我们的研究，以下是最新的候选人：...

Python英语单词整理.pdf

09-03

学习Python常用的英语单词,词汇,整理完善,可直接食用.

Python英语单词整理(1).pdf

07-27

Python英语单词整理(1).pdf

1800个程序员必备词汇-开发必备-适用前后端-编程词汇-1800词40页高清完整版-带音标-右侧下载前可预览.pdf

12-24

1800个程序员必备词汇，本词汇汇集了前后端软件开发中常用词汇，同时带有音标，基本满足日常开发需求，适合编程初学者及各阶段开发者学习使用。

Python中英文词汇对照表(2020).pdf

11-24

Python的强大以及广泛应用已成为人们的共识，目前Python已经广受数学科学、AI和脚本语言开发人员的欢迎。在过去5年，Python语言的流行性也不断增加。附上2020年Python面试题汇总及答案详解，助您求职无忧

python编程：提取word、pdf、excel信息的动词与名词，制作词云图

Hanze的博客

11-26

1766

工具类参数： text：数据 mode：word文档选选word excel或者pdf选 mode=‘pdf’ import os import re import jieba.posseg as jpg from wordcloud import WordCloud from matplotlib import pyplot as plt import imageio import pandas as pd import xlrd import xlwt import shutil class U

怎么提取pdf格式中的英语单词