DeepSeek AI 和豆包 AI 的文档提取能力

最新推荐文章于 2025-04-12 22:12:15 发布

Leon_Jinhai_Sun

最新推荐文章于 2025-04-12 22:12:15 发布

阅读量901

点赞数 15

文章标签：人工智能

本文链接：https://blog.csdn.net/Leon_Jinhai_Sun/article/details/146244932

版权

1. DeepSeek AI 和豆包 AI 的文档提取能力

这些 AI 服务的文档提取能力通常是通过以下方式实现的：

PDF 解析：
- 对于文本型 PDF，使用 PDF 解析库（如 PyMuPDF、PyPDF2）直接提取文字。
- 对于扫描件或图像型 PDF，使用 OCR 工具（如 Tesseract、PaddleOCR）提取文字。
文本处理：
- 将提取的文字输入 AI 模型（如 DeepSeek）进行进一步处理，例如生成摘要、回答问题等。
多模态支持：
- 结合图像和文本信息，使用多模态模型（如 CLIP、BLIP）增强理解能力。

2. 本地部署 DeepSeek 并实现 PDF 识别

以下是详细步骤，帮助您在本地部署 DeepSeek 并结合外部工具实现 PDF 文件识别：

步骤 1：安装 DeepSeek 模型

下载 DeepSeek 模型文件（如 deepseek-r1:32b）。

使用 ollama 或其他工具加载模型：

ollama serve
ollama pull deepseek-r1:32b

步骤 2：安装 PDF 解析和 OCR 工具

安装 PDF 解析库：
```
pip install PyMuPDF PyPDF2
```

安装 OCR 工具：

安装 Tesseract：

# macOS
brew install tesseract

# Ubuntu/Debian
sudo apt-get install tesseract-ocr

# Windows：下载 Tesseract 安装包并添加到系统路径

安装 PaddleOCR：
```
pip install paddleocr
```

步骤 3：编写 PDF 解析和 OCR 代码

以下是一个示例代码，展示如何提取 PDF 文字并调用 DeepSeek 模型：

import fitz  # PyMuPDF
from paddleocr import PaddleOCR
import requests

# 初始化 PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang="ch")

def extract_text_from_pdf(pdf_path):
    # 打开 PDF 文件
    pdf_document = fitz.open(pdf_path)
    text = ""

    # 遍历每一页
    for page_num in range(len(pdf_document)):
        page = pdf_document.load_page(page_num)
        page_text = page.get_text()

        if page_text.strip():  # 如果是文本型 PDF
            text += page_text
        else:  # 如果是图像型 PDF，使用 OCR
            pix = page.get_pixmap()
            image_path = f"page_{page_num + 1}.png"
            pix.save(image_path)
            result = ocr.ocr(image_path, cls=True)
            page_text = "\n".join([line[1][0] for line in result[0]])
            text += page_text

    return text

# 调用 DeepSeek 模型
def call_deepseek_model(text):
    url = "http://localhost:11434/api/generate"  # ollama 的 API 地址
    payload = {
        "model": "deepseek-r1:32b",
        "prompt": text,
        "stream": False
    }
    response = requests.post(url, json=payload)
    return response.json()["response"]

# 示例：提取 PDF 文字并调用 DeepSeek
pdf_path = "example.pdf"
extracted_text = extract_text_from_pdf(pdf_path)
response = call_deepseek_model(extracted_text)
print(response)