Python处理 PDF神器PyMuPDF 将PDF转文字

目录

第一步,需要安装pycharm

1、安装文件在这里:

2、破解方案看这里(仅供学习交流,请勿用作商业用途)

第二步、关键代码

1、下载依赖

2、关键代码

附:完整代码


        最近学习RAG的时候,偶然解锁了PDF转文字的小功能,用的python,在win10-64位操作系统上,使用的IDE是Pycharm_Professional_2020.3.2_Portable,这里记录一下。

2478ec4c457f47278a08c1a7dd017bf6.png

第一步,需要安装pycharm

1、安装文件在这里:

链接:https://pan.baidu.com/s/1uHe5BWS6BnXJt5_ujgNcLw?pwd=o80w 
提取码:o80w 

2、安装方案看这里(仅供学习交流,请勿用作商业用途)

原链接可以看这里:https://www.3363.cn/soft/19122.html#

6a1c3b44a8869c445233e143912fbe78.jpeg

00055faa755697fa9995454b03d21ab5.jpeg

d01805425189429dee912c7fcf32a3e1.jpeg


 

2a20a1537f2a6f1d8a368e2c0c960641.jpeg

bd5f3cc43c87f19b370e80d9dfa1a026.jpeg

7dde7ef0c06e01b90fda3b5180b0baec.jpeg

2fd0e00fad93d3dd3b378382922213cd.jpeg

707d8cc78061f6cd081411bd6a897228.jpeg

27ae297dcf46cbfe868d8bb53109c24f.jpeg

3aac8791a14d2646bc4d42910b46e16a.jpeg

5db774be081c1631bffc665391a8c131.jpeg

第二步、关键代码

当时参考了这篇文章:Python 处理 PDF神器 —— PyMuPDF 的安装与使用!-CSDN博客。关键点是以下:

1、下载依赖

pip install PyMuPDF

ccfc0ac6b98e4fca86aebce6f840f411.png

2、关键代码

def extract_text_from_pdf(pdf_path, page_numbers):
    """
    从PDF文件的指定页码中提取文字。
    :param pdf_path: PDF文件的路径。
    :param page_numbers: 以列表形式指定的页码。
    :return: 提取的文字。
    """
    text_list = []
    with fitz.open(pdf_path) as pdf:
        for page_number in page_numbers:
            # 获取指定页码的页面
            page = pdf[page_number - 1]  # 注意:PyMuPDF的页面索引从0开始
            # 提取文字
            text = page.get_text()
            text_list.append(text)
    return "\n".join(text_list)  # 使用换行符连接提取的文字

70ac9a3138114058811fa4e1c85e9ec0.png附:完整代码

链接:https://pan.baidu.com/s/1psP0vX4tsW52_DSlRlA0OQ?pwd=8j7i 
提取码:8j7i 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值