io python 读取pdf_如何用Python读取PDF中的全部文本

本文介绍了如何利用Python的pdfplumber库高效地读取PDF文件中的全部文本内容。首先通过pip安装pdfplumber,然后在Jupyter Notebook中打开PDF文件,获取所有页面,并遍历输出每一页的文本。借助Python第三方库,可以极大地提高处理PDF文本的工作效率。
摘要由CSDN通过智能技术生成

都说Python可以提高工作效率,这次还真验证了一下。就以读取PDF中的文本内容为例子吧:

本机最好要有jupyter notebook(Python编译器)

首先,在运行中输入如下代码:

pip install pdfplumber

安装一个第三方插件

待安装成功后,就可以在jupyter notebook执行如下代码

import pdfplumber

#http://github.com/jsvine/pdfplumber

#创建PDF文件对象

pdf=pdfplumber.open('./ENERGY STAR.pdf')

#获得所有的页数

pdf_pages=len(pdf.pages)

#获取指定第1页的文字内容

first_page=pdf.pages[0]

#extract_text()获取当前页面的文本值

first_page.extract_text()

for i in range(0,pdf_pages):

    #遍历当前所有的页面,输出全部的文本值

    print(pdf.pages[i].extract_text())

执行后就是这个效果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值