python提取pdf表格数据匹配_python3用PyPDF2解析pdf文件,用正则匹配数据方式

最新推荐文章于 2024-05-24 17:41:56 发布

weixin_39897505

最新推荐文章于 2024-05-24 17:41:56 发布

阅读量178

点赞数

文章标签： python提取pdf表格数据匹配

本文链接：https://blog.csdn.net/weixin_39897505/article/details/111555599

版权

本文介绍了如何使用Python的PyPDF2库读取PDF文件内容，并结合正则表达式提取特定格式的数据，如股票代码和价格等。通过循环遍历PDF的每一页，提取文本，然后进行数据匹配。此外，还提到了正则表达式的其他应用，以及在使用log4j日志库时避免类选择错误的方法。

摘要由CSDN通过智能技术生成

我就废话不多说了，大家还是看代码吧！

import PyPDF2

import re

pdf_file = open('xxx.pdf', mode='rb')

read_pdf = PyPDF2.PdfFileReader(pdf_file)

# 获取pdf文件的所有页数

number_of_pages = read_pdf.getNumPages()

# print('total_page: ', number_of_pages)

line_list = []

# 循环遍历每一页

for i in range(0, number_of_pages):

# 读取每一页的内容

page = read_pdf.getPage(i)

page_content = page.extractText()

# 将这一页的内容分割为列表，，并相加所有的页面内容

line_list += page_content.split()

# 关闭pdf文件

pdf_file.close()

line_buf = ''

for buf in line_list:

line_buf = line_buf+' '+buf

# 匹配数据：第一列和第二列如：000069.sz 和 100

# print(line_buf)

a = re.findall('([0-9]+[0-9]+[0-9]+[0-9]+[0-

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39897505

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

PyPDF2解析pdf文件提取内容插入数据库

10-19

Python3.X+PyPDF2解析指定文件夹下的pdf文件，提取文件内容并写入mysql数据库

【PYTHON,PDF】1.利用python.pypdf2 进行文字表格提取

AI_LINNGLONG的博客

02-14

3149

0.安装模块 window： pip insta pypdf2 pip install pdfplumber mac： pip3 insta pypdf2 pip3 install pdfplumber 若错误可 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pdfplumber 1.提取pdf文字...

参与评论您还未登录，请先登录后发表或查看评论

python3用PyPDF2解析pdf文件，用正则匹配数据

零度愿望的博客

10-30

2678

import PyPDF2 import re pdf_file = open('xxx.pdf', mode='rb') read_pdf = PyPDF2.PdfFileReader(pdf_file) # 获取pdf文件的所有页数 number_of_pages = read_pdf.getNumPages() # print...

PyPDF2，一个超实用的 Python 库！

涛哥聊Python

04-15

1149

Python PyPDF库是一款功能强大的工具，用于处理和操作PDF文档。它提供了丰富的特性，包括合并PDF文档、提取文本内容、设置文档信息、加密和解密PDF文档以及页面操作等功能。通过PyPDF库，开发者可以轻松地实现PDF文档的合并、提取、加密和页面操作等操作。它在文档处理、数据提取和安全保护等实际应用场景中具有广泛的用途。总之，Python PyPDF库是处理PDF文档的利器，为开发者提供了强大的功能和灵活的操作方式。

python搜索pdf内容所在页码_Python PyPDF2重新搜索字符串并报告找到搜索项的PDF的页码...

weixin_42351910的博客

12-29

677

我正在寻找一种方法，通过Python在PDF(或word文档中查找搜索词，尽管我知道这样做要困难得多)，并报告出现在excel文件中的页码。最近几周我一直在研究，发现下面的代码(非常感谢发布者-我在代码中添加了他的URL作为注释！)。在但是有一个问题-在我将word文档转换成PDF之前使用的原始文档中，在主叙述体的右侧有一些文本框，这些文本框是我试图获取的搜索词。搜索词的一个例子是“AxI”。1....

python3用PyPDF2解析pdf文件,用正则匹配数据方式

09-16

总结，这个示例展示了如何使用Python 3的`PyPDF2`库解析PDF文件，并结合正则表达式提取特定格式的数据。同时，还介绍了Python中基本的日志记录概念。在实际项目中，根据具体需求，可能还需要处理其他类型的PDF内容，...

python正则学习_python正则_pagedbm_python_正则表达式_

10-01

在Python中，正则表达式主要用于处理文本数据，例如从日志文件中提取特定信息，验证用户输入，或者从网页内容中抓取数据。在本教程中，我们将深入探讨Python正则表达式的概念、语法以及实际应用。首先，我们需要...

基于Python正则表达式的管制指令匹配与提取 (1).pdf

06-29

在本文中，作者提出了一种基于Python正则表达式的管制指令匹配与提取方法。正则表达式是一种强大的文本处理工具，能够灵活地识别和提取字符串中的特定信息。在航空管制领域，管制指令的准确提取对于保障飞行安全至关...

Python一键提取PDF中的表格到Excel

01-28

这个话题涉及到Python的两个关键库：PyPDF2用于读取PDF文件，pandas则用于处理和转换数据，最终将表格数据保存为Excel格式。首先，PyPDF2是Python的一个库，它允许开发者以编程方式处理PDF文件。通过PyPDF2，我们...

Python 用三行代码提取PDF表格数据

09-18

主要介绍了Python 用三行代码提取PDF表格数据,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

手把手教你用Python提取PDF中的表格

热门推荐

m0_59236127的博客

01-31

2万+

前言 pdfplumber 是一个开源的 python 工具库，它可以轻松的获取 PDF 文本内容、标题、表格、尺寸等各种信息，今天来介绍如何使用它来提取 PDF 中的表格。安装首先通过下面命令安装 pdfplumber 模块。 pip install pdfplumber 或是使用豆瓣镜像源安装。 pip install -i https://pypi.douban.com/simple pdfplumber 案例这里有一份2020年中国大学生计算机设计大赛参赛作品获奖名单，文件为 PDF 格

Python提取pdf中的表格数据（附实战案例）

m0_64336780的博客

10-26

9571

今天给大家介绍一个Python使用工具，那就是从pdf文件中读取表格数据，主要用到第三方库pdfplumber。pdfplumber是一款基于pdfminer，完全由python开发的pdf文档解析库，不仅可以获取每个字符、矩形框、线等对象的具体信息，而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档。

Python编程神器：3行代码提取PDF表格数据

python入门教程学习电子书视频资料

11-20

613

从 PDF 表格中获取数据是一项痛苦的工作。不久前，一位开发者提供了一个名为 Camelot 的工具，使用三行代码就能从 PDF 文件中提取表格数据。 PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来，形成版面清晰且美观的展示效果。然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。大量的学术报告、论文、分析文章都使...

干货| 使用Python提取PDF表格数据

白帽阿叁的博客

12-15

1721

然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

用Python代码批量提取PDF文件中的表格

最新发布

Eiceblue的专栏

05-24

2166

本文演示如何使用Python提取PDF文档中的表格数据，并将其保存到文本文件或Excel文件。

运用Python抓取PDF表格中的特定数据并生成Excel文件

penpen99313的博客

07-28

1941

在工作中遇到了一个问题，需要把PDF中的地方债数据粘贴到Excel表格中，在PDF的每个表格中需要找到“金额”“本息和”“项目总收益”“项目名称”“项目类型”……等等数据。每一页表格需要复制粘贴十次，一共四百多页的PDF岂不是要复制粘贴八千次！眼瞎了都粘不完吧！于是我开始尝试用Python来读取PDF表格，然后找到每个表格对应位置的数据，对应到新生成的序列中，最后导出为Excel。如图一，这是PDF中每一页记录的地方债项目数据。

为什么别人整理表格数据那么快，我教你简单三行Python 代码快速提取PDF表格数据

m0_60147147的博客

03-20

887

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

如何使用Python提取PDF表格数据

weixin_72959097的博客

04-14

1448

从 PDF 表格中获取数据是一项痛苦的工作。不久前，一位开发者提供了一个名为 Camelot 的工具，使用三行代码就能从 PDF 文件中提取表格数据。PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来，形成版面清晰且美观的展示效果。然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据，但是对于如果想要直接从表格中复制数据则会非常麻烦。

大佬教你用python三行代码提取PDF表格数据

mid56579的博客

07-29

166

PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来，形成版面清晰且美观的展示效果。然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据，但是对于如果想要直接从表格中复制数据则会非常麻烦。不久前，有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot，能够直接将大部分表格转换为 Pandas 的 Dataframe。项目地址：https

帮我用pypdf2写一个提取pdf中表格数据的代码

05-30

好的，以下是一个使用PyPDF2库提取PDF表格数据的示例代码： ```python import PyPDF2 import re import csv def extract_table_data(file_path, page_num): # 打开PDF文件 with open(file_path, 'rb') as pdf_...