【已解决】Python读取PDF文件的内容

前言

创作开始时间:2021年7月1日10:10:50

如题。网上给了很多种方法,但是有的不太好使,这里给出一个可行的解决方案。

环境

  • windows 10
  • conda
  • Python 3.8

解决方案

我一共尝试了三种方案,具体代码如下:

pdf_path = os.path.join("E:\\input", "中国计算机学会推荐国际学术会议和期刊目录-2019.pdf")

# 方案1
# 没有tika 的话可以运行conda install tika 或者pip install tika
from tika import parser
file_data = parser.from_file(pdf_path)
text = file_data['content']
print(text)

# 方案2
# 没有pdfplumber的话可以运行conda install pdfplumber或者pip install pdfplumber
import pdfplumber
with pdfplumber.open(pdf_path) as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())

# 方案3
# 没有pypdf2的话可以运行conda install pypdf2或者pip install pypdf2
from PyPDF2 import PdfFileReader
open_file = open(pdf_path, "rb")
input = PdfFileReader(open_file) 
page = input.getPage(0)
page_content = page.extractText()
print(page_content)

三个方案里面,我觉得方案一最好:

  • 读取数据完整
  • 可以读取表格数据

方案二次之:

  • 读取数据完整,
  • 但是对表格数据的解析不太好

方案三最差:

  • 读取数据不完整。

小结

以上。

创作结束时间:2021年7月1日10:25:58

参考文献

参考很多,有用者不多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值