Python读取PDF文字去掉页眉页脚

waketzheng

已于 2024-03-30 12:40:10 修改

阅读量3.2k

点赞数 3

文章标签： pdf

于 2024-03-30 12:39:24 首次发布

本文链接：https://blog.csdn.net/jaket5219999/article/details/137170362

版权

使用PyMuPDF（即fitz）读取PDF中的text时，会把页码也读进来。所以，有时候就需要让程序忽略页眉和页脚，或者直接删除页眉和页脚。

根据fitz的文档：Page - PyMuPDF 1.24.0 documentation

get_text的clip参数可以指定要读取文字的区域，于是大致代码如下：

doc = fitz.open(fname)
page = doc[0]
rect = page.rect
clip = 50 # 假设页眉和页脚的高度都是50
crop = fitz.Rect(0, clip, rect.width, rect.height-clip)
text = page.get_text(clip=crop)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

waketzheng

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python去掉图片上的文字水印_【原创】python批量删除pdf图片水印（Xobject）的一种方法...

weixin_39989939的博客

11-26

1907

1.说明：下载到的pdf总会有一些水印，pdf文件水印添加方式除了acrobat adobe自带的以外，还有很多，所以去除水印方法也很多，这里介绍的也只是一种适用python批量删除图片水印Xobject的方法，对于不想装pitstop、abbyy的情况可供君参考，程序需要完善的地方很多，目前只是实现单一的批量删除pdf图片水印。2.分析：分析原pdf水印，排除是页眉页脚，Acrobat添加水印等...

【学习笔记】Python办公自动化——word与pdf

Mr_Bility的博客

07-20

662

【学习笔记】Python办公自动化——word与pdf

参与评论您还未登录，请先登录后发表或查看评论

Python读取PDF文字转txt，解决分栏识别问题，能读两栏

03-28

Python读取PDF文字转txt，解决分栏识别问题，能读两栏

python修改pdf文件(去掉文件中部分内容)

weixin_34095889的博客

12-23

6070

需求最近有个编辑修改pdf文件的需求:去掉每页等页眉、页脚(里面包含图片)，修改后的文件还得保存为pdf。初步方案使用python的库:PyPDF2。发现只有功能：简单的读写、拆分、合并等功能。不能去掉文件的部分内容。解决过程先拆分pdf为单页pdf文件；将单页pdf转化为png图片；编辑切割png图片； png图片转为pdf文件并合并。实现过程 import sys impo...

从PDF中提取关键部分（如合同正文）并去除无关内容

热门推荐

landuoyu的博客

03-23

1万+

如今我们所阅读的电子文档大多都是PDF文档，其实和很多的网友都向我诉说了一个问题，如果是要重新编辑，把PDF文件重新修改是一件很麻烦的事。今天来给大家介绍一下应该如何去除PDF文件的页眉页脚，这个办法是十分的方便快捷的。本PDF编辑器是一款能够实现PDF文件的编辑与阅读的文字处理软件，它有完整的PDF编辑功能，不单能够对PDF文件中的文本部分进行修改，更可以针对图像、样式、多媒体内容进行

PDF怎么去除页眉页脚，PDF页眉页脚编辑方法

xunjiePDF_的博客

03-26

519

　　我们在使用文件的时候需要编辑页眉页脚的时候，这个时候我们应该怎么做呢，相信别的文件大家都知道怎么编辑了，PDF文件大家都知道吗，最开始接触这个文件的时候小编觉得很难，之后找到技巧之后也并没有很难，今天就来跟大家分享一起小编我的编辑方法吧。　　操作软件：迅捷PDF编辑器https://pc.qq.com/detail/7/detail_23407.html 　　1.在百度中搜索PDF编...

python 文本分析去除页眉页码

01-05

这里给出基于PyMuPDF的一个简单例子用于去掉每一页上的固定位置文字（假设为页码），这可能不是最精确的办法因为实际应用中页码的位置可能会变化: ```python import fitz # 导入 pymupdf 的别名 def clear_fixed_...

python批量替换页眉页脚实例代码

09-20

主要介绍了python批量替换页眉页脚实例代码，小编觉得还是挺不错的，具有一定借鉴价值，需要的朋友可以参考下

PDF文件提取开源工具调研总结

weixin_43837507的博客

01-17

2325

PDF是一种日常工作中广泛使用的跨平台文档格式，常常包含丰富的内容：包括文本、图表、表格、公式、图像。在现代信息处理工作流中发挥了重要的作用，尤其是RAG项目中，通过将非结构化数据转化为结构化和可访问的信息，极大地提高了信息检索和生成的准确性、效率和实用性。所以PDF文档提取在RAG中显得尤为重要。

Python+pymupdf处理PDF文档案例6则

Python小屋

07-20

1552

如何编辑修改PDF，PDF怎么删除页眉页脚

weixin_34049948的博客

03-08

443

随着PDF文件越来越受大家的欢迎，在工作中使用的也越来越多，PDF文件的修改编辑是需要用到PDF编辑器的，在使用PDF文件的时候，往往文件中是有页眉页脚的存在的，那么，怎么将文件中的页眉页脚进行删除呢，估计有很多的小伙伴也好奇这是怎么操作的吧，那就看看下面的文章，说不定就会了哦。 1.打开运行迅捷PDF编辑器，在编辑器中打开需要修改的PDF文件。 ...

python批量删除文件夹下的文件页眉页脚有特定文字的文件，有就删除

weixin_42381882的博客

05-22

663

【代码】python批量删除文件夹下的文件页眉页脚有特定文字的文件，有就删除。

【Python】批量删除word文件中的页眉页脚

xiaolubian的专栏

01-02

1674

删除word文档中的页眉页脚

用python删除pdf文件的特定页码

Pythonlover120的博客

07-05

1671

用python工具处理pdf，秒删pdf文件多余页，真是pdf处理利器。

Python教你如何快速分拆、删页、合并PDF文件

友莘居士的博客

12-07

294

有时我们可能需要对PDF文件进行一些处理，例如分拆、删页、合并等。这些操作在一些专业的PDF软件中可能比较容易实现，但是如果我们想要用Python来自动化或批量处理这些操作呢？有没有什么简单而强大的Python库可以帮助我们呢？答案是肯定的。在Python中，有一个叫做PyPDF2的库，它可以让我们用简单的代码来处理PDF文件。在这篇教程中，我们将学习如何使用PyPDF2库来快速分拆、删页、合并PDF文件。我们将通过一些实际的例子来演示这些操作，并介绍一些常用的API和参数。在开始之前，我们需要先安装。

Python读取PDF文字 去掉页眉页脚

Python读取PDF文字去掉页眉页脚