Python PDF文件转文本

最新推荐文章于 2025-05-29 14:04:20 发布

原子星

最新推荐文章于 2025-05-29 14:04:20 发布

阅读量529

点赞数

CC 4.0 BY-SA版权

文章标签： python pdf 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/superatom01/article/details/131098747

该代码示例展示了如何利用Python的PyPDF2库从PDF文件中提取文本，统计单词数量和页面数，并将结果保存为JSON文件。它遍历PDF的每一页，合并文本，并计算词数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

比较简单的实现，代码用到了PyPDF2，函数返回一个json结构

import PyPDF2
import json

def convert_pdf_to_text(pdf_file, text_file):
    # Open the PDF file in binary mode
    with open(pdf_file, 'rb') as file:
        pdf_reader = PyPDF2.PdfReader(file)

        # Get the total number of pages in the PDF
        pages = pdf_reader.pages

        # Initialize counters
        word_count = 0
        graph_count = 0

        # Extract text from each page and count words and graphs
        text = ''
        for page in pages:
            #page = pdf_reader.getPage(page_number)
            text += page.extract_text()
            # Count words
            word_count += len(text.split())

    # Save the text to a text file
    with open(text_file, 'w', encoding='utf-8') as file:
        file.write(text)

    # Create a dictionary with the counts
    counts = {
        'word_count': word_count,
        'page_count': len(pages)
    }

    # Save the counts to a JSON file
    json_file = text_file.replace('.txt', '.json')
    with open(json_file, 'w') as file:
        json.dump(counts, file)

博客等级

码龄19年

311
原创

4359
点赞

3323
收藏

3396
粉丝

关注

私信

热门文章

分类专栏

物联网开发 53篇
micropython 48篇
AI 4篇
前端开发 7篇
JavaScript 1篇
机器学习 4篇
python 17篇
mongodb 237篇
数据协议 1篇
杂谈 2篇
MySql
爬虫 1篇

展开全部收起

上一篇：: MongoDB使用日期和时间

下一篇：: Python 技巧：使用lru_cache装饰器实现全局缓存

最新评论

MicroPython VSCode开发环境搭建
kaseoma: 博主你好，按照你的教程配置json文件后。示例和文件库窗口均显示“没有可提供视图数据的已注册数据提供程序”这要如何解决。
Arduino IDE ESP32 C3 “Some indexes could not be updated.”错误
weixin_50158783: 嗨呀终于搞定了谢谢大佬
MicroPython核心：源码获取、编译构建
cat397: 你好你会遇见使用vs2019打开windows下目录micropython.vcxpro文件，通过编译会报错，报错如下：严重性代码说明项目文件行禁止显示状态错误 MSB3073 命令“python C:\Users\huawei\Desktop\micropython\micropython-1.22.2\micropython-1.22.2\py\makeqstrdefs.py split root_pointer C:\Users\huawei\Desktop\micropython\micropython-1.22.2\micropython-1.22.2\ports\windows\build-standard\genhdr\qstr.i.last C:\Users\huawei\Desktop\micropython\micropython-1.22.2\micropython-1.22.2\ports\windows\build-standard\genhdr\root_pointer _”已退出，代码为 1。 micropython C:\Users\huawei\Desktop\micropython\micropython-1.22.2\micropython-1.22.2\ports\windows\msvc\genhdr.targets 126
Arduino IDE ESP32 C3 “Some indexes could not be updated.”错误
qc275: 这里没问题咧但是下载板子的时候会报：[code=plain]connectex: A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond. [/code]
使用Thonny搭建MicroPython 开发环境，简单易用，保姆级教程
原子星: 界面右下角，切换到本地的python环境能调试，很遗憾，开发板的python环境不行，只能print了

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

原子星 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。