【已解决】Python读取PDF文件的内容

最新推荐文章于 2024-07-21 17:36:46 发布

宇内虹游

最新推荐文章于 2024-07-21 17:36:46 发布

阅读量2.3k

点赞数 1

分类专栏： PHDcand2-2

本文链接：https://blog.csdn.net/weixin_39278265/article/details/118380527

版权

PHDcand2-2 专栏收录该内容

115 篇文章

订阅专栏

文章目录

前言

创作开始时间：2021年7月1日10:10:50

如题。网上给了很多种方法，但是有的不太好使，这里给出一个可行的解决方案。

环境

windows 10
conda
Python 3.8

解决方案

我一共尝试了三种方案，具体代码如下：

pdf_path = os.path.join("E:\\input", "中国计算机学会推荐国际学术会议和期刊目录-2019.pdf")

# 方案1
# 没有tika 的话可以运行conda install tika 或者pip install tika
from tika import parser
file_data = parser.from_file(pdf_path)
text = file_data['content']
print(text)

# 方案2
# 没有pdfplumber的话可以运行conda install pdfplumber或者pip install pdfplumber
import pdfplumber
with pdfplumber.open(pdf_path) as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())

# 方案3
# 没有pypdf2的话可以运行conda install pypdf2或者pip install pypdf2
from PyPDF2 import PdfFileReader
open_file = open(pdf_path, "rb")
input = PdfFileReader(open_file) 
page = input.getPage(0)
page_content = page.extractText()
print(page_content)

三个方案里面，我觉得方案一最好：