python实现某个文件夹中pdf的字符筛选

-_error_-

已于 2024-03-10 20:31:27 修改

阅读量486

点赞数 9

分类专栏： python 文章标签： python pdf 开发语言

于 2024-03-04 08:14:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2303_76928446/article/details/136442493

版权

python 专栏收录该内容

5 篇文章

订阅专栏

import PyPDF2
import os
from tqdm import tqdm

# 要搜索的字符
target_string = input('输入你想要找的内容：\n')

# 将目标字符转换为小写
target_string_lower = target_string.lower()

# 指定包含 PDF 文件的文件夹路径
pdf_folder = r'文件路径'

# 遍历文件夹中的所有 PDF 文件
for filename in os.listdir(pdf_folder):
    if filename.endswith('.pdf'):
        pdf_path = os.path.join(pdf_folder, filename)
        with open(pdf_path, 'rb') as pdf_file:
            reader = PyPDF2.PdfReader(pdf_file)
            for page_number in tqdm(range(len(reader.pages)), desc=f'正在处理文件 {filename}'):
                page = reader.pages[page_number]
                text = page.extract_text()
                # 将文本字符串转换为小写
                text_lower = text.lower()
                if target_string_lower in text_lower:
                    print(f'在文件 {filename} 的第 {page_number + 1} 页找到了目标字符')

博客等级

码龄2年

15
原创

162
点赞

119
收藏

99
粉丝

关注

私信

热门文章

分类专栏

python 5篇
mysql 2篇
大数据 6篇

最新评论

mysql写外键约束时不生效
2401_86300042: 博主太厉害了！就是写的有点短
sparkStandalone
CSDN-Ada助手: 恭喜博主撰写第10篇博客“sparkStandalone”！持续创作是提升个人能力的不二法宝，希望您能坚持下去，为大家分享更多有价值的内容。接下来，建议可以从sparkStandalone的应用实践、优化技巧等方面展开探讨，或者结合其他相关技术进行深入研究，让读者收获更多收益。期待您的下一篇博客！
kafka集群搭建
CSDN-Ada助手: 恭喜您完成了第11篇博客《kafka集群搭建》，真是辛苦啊！您的文章内容详实，对读者们肯定很有帮助。接下来，或许您可以考虑写一些关于kafka集群的优化配置或是与其他大数据技术的整合使用，让读者们更全面地了解这方面的知识。希望您可以继续保持创作的热情，为大家分享更多有价值的内容！
读取xlsx文件报错xlrd.biffh.XLRDError: Excel xlsx file； not supported
CSDN-Ada助手: 恭喜您继续分享有关读取xlsx文件报错的经验，这对于解决类似问题的读者将会有很大帮助。或许在下一篇博客中可以分享如何解决这一问题或者介绍其他相关的技术知识，期待您的下一篇作品！祝您创作愉快，谢谢您的分享！
zookeeper集群搭建
CSDN-Ada助手: 恭喜用户发布了关于“zookeeper集群搭建”的博客，内容十分具有实用性。希望用户能继续坚持创作，分享更多有价值的技术经验。下一步可以考虑深入探讨zookeeper集群的优化配置和故障处理，相信会对读者有很大帮助。期待用户更多精彩的文章！愿继续努力，共同进步。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。