解析 PDF 文件的详细指南

最新推荐文章于 2025-04-03 22:26:22 发布

AI大模型learner

最新推荐文章于 2025-04-03 22:26:22 发布

阅读量1.7k

点赞数 13

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_28704101/article/details/140464343

版权

在数据处理和文本挖掘领域，处理 PDF 文件常常是一个必要且具有挑战性的任务。本文将介绍如何使用 unstructured.partition.pdf 函数来解析 PDF 文件，并提取其中的文本和表格内容。

前提条件
在开始之前，请确保你的系统已经安装了以下依赖项：

Python 3.x
Poppler：用于解析和渲染 PDF 文件。
Tesseract：用于光学字符识别（OCR），特别是在 PDF 文件中包含图像时。
必要的 Python 包：unstructured、pytesseract、pdf2image、pdfminer.six 等。
安装和配置
安装 Poppler
根据你的操作系统安装 Poppler。

Windows：

下载 Poppler for Windows。
解压文件并将 bin 目录添加到系统的 PATH 环境变量中。
验证安装：

pdfinfo -v

macOS：
使用 Homebrew 安装 Poppler：

brew install poppler

Linux：
使用包管理器安装 Poppler，例如在 Ubuntu 上：

sudo apt-get install poppler-utils

安装 Tesseract
根据你的操作系统安装 Tesseract。

Windows：

下载 Tesseract OCR。
将 Tesseract 的安装路径添加到系统的 PATH 环境变量中。
验证安装：

tesseract -v

macOS：
使用 Homebrew 安装 Tesseract：

sh
复制代码
brew install tesseract
Linux：
使用包管理器安装 Tesseract，例如在 Ubuntu 上：

sudo apt-get install tesseract-ocr

安装 Python 包
使用 pip 安装所需的 Python 包：

pip install unstructured
pip install pytesseract
pip install pdf2image
pip install pdfminer.six
pip install torch torchvision torchaudio  # 如果使用 PyTorch

使用 partition_pdf 解析 PDF 文件
下面是一个示例代码，展示如何使用 partition_pdf 函数解析 PDF 文件，并提取其中的文本和表格内容：

from unstructured.partition.pdf import partition_pdf

raw_pdf_elements = partition_pdf(
    filename="./ankaozhidian.pdf"
)
for element in raw_pdf_elements:
    print(element)

常见错误及解决方法
错误：Data-loss while decompressing corrupted data
这个错误通常表示你的 PDF 文件在解压缩过程中出现了问题，可能是由于文件损坏、格式不兼容或不支持的压缩方法等原因。

解决方法：

重新下载 PDF 文件：确保 PDF 文件没有损坏，重新下载文件以确保完整性。
使用 PDF 修复工具：可以尝试使用一些工具来修复损坏的 PDF 文件。
尝试其他 PDF 解析库：如 pdfplumber 或 PyMuPDF。
错误：Some weights of the model checkpoint at microsoft/table-transformer-structure-recognition were not used…
这个警告提示某些批归一化层的参数（如 num_batches_tracked）在初始化时没有被使用。通常，这不会影响模型的正常使用。

解决方法：
你可以忽略这些警告，只要模型能够正常运行。如果确实需要处理这些权重，可能需要在模型代码中进行调整。

使用其他 PDF 解析库
如果你怀疑是 unstructured 库的问题，可以尝试使用其他 PDF 解析库，如 pdfplumber 或 PyMuPDF。

使用 pdfplumber

import pdfplumber
def extract_text_from_pdf(pdf_path):
    text = ""
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text += page.extract_text()
    return text

pdf_path = "./ankaozhidian.pdf"
text = extract_text_from_pdf(pdf_path)
print(text)

使用 PyMuPDF

import fitz  # PyMuPDF

def extract_text_from_pdf(pdf_path):
    document = fitz.open(pdf_path)
    text = ""
    for page_num in range(document.page_count):
        page = document.load_page(page_num)
        text += page.get_text()
    return text

pdf_path = "./ankaozhidian.pdf"
text = extract_text_from_pdf(pdf_path)
print(text)

结论
通过 unstructured.partition.pdf 函数，可以方便地解析 PDF 文件并提取其中的文本和表格内容。尽管在使用过程中可能会遇到一些错误，但通过正确的安装和配置依赖项，以及尝试其他 PDF 解析库，可以有效地解决这些问题。希望本文能够帮助你顺利处理 PDF 文件并从中提取有价值的信息。