第九篇【传奇开心果系列】Python自动化办公库技术点案例示例：深度解读Python处理PDF文件

最新推荐文章于 2024-07-09 22:38:42 发布

2401_84584535

最新推荐文章于 2024-07-09 22:38:42 发布

阅读量954

点赞数 11

分类专栏：程序员文章标签： python 自动化 pdf

本文链接：https://blog.csdn.net/2401_84584535/article/details/138425383

版权

（六）OCR光学字符识别示例代码

在这里插入图片描述

要将PDF文件中的图像文字识别为可编辑的文本，你可以使用OCR（光学字符识别）库结合Python的PDF文件处理库。

使用pdf2image和pytesseract库进行OCR的示例代码

首先，确保你已经安装了pdf2image和pytesseract库。你可以使用以下命令来安装它们：

pip install pdf2image pytesseract

接下来，使用以下示例代码来进行OCR识别：

import pytesseract
from pdf2image import convert_from_path

def ocr\_from\_pdf(pdf_path):
    pages = convert_from_path(pdf_path)

    result = ""
    for page in pages:
        text = pytesseract.image_to_string(page, lang='eng')
        result += text

    return result

# 使用示例
pdf_path = "input.pdf"  # 输入PDF文件路径

text = ocr_from_pdf(pdf_path)
print(text)

在示例代码中，我们首先使用convert_from_path()函数从PDF文件中提取图像页。然后，我们使用pytesseract.image_to_string()函数将每个图像页中的文字识别为字符串。最后，我们将所有识别的文本合并到一个结果字符串中。

请注意，这里使用的是英文语言模型（lang='eng'）。如果你处理的是其他语言的PDF文件，可以根据需要设置适当的语言模型。此外，OCR的准确性可能受到图像质量、文字清晰度和语言模型的影响。

这个示例代码使用了pdf2image和pytesseract库，但还有其他OCR库可供选择，如textract、pyocr等。你可以根据自己的需求选择合适的OCR库来进行PDF文件中图像文字的识别。

使用textract库进行OCR的示例代码

首先，确保你已经安装了textract库。你可以使用以下命令来安装它：

pip install textract

接下来，使用以下示例代码来进行OCR识别：

import textract

def ocr\_from\_pdf(pdf_path):
    text = textract.process(pdf_path, method='tesseract', language='eng')

    return text.decode('utf-8')

# 使用示例
pdf_path = "input.pdf"  # 输入PDF文件路径

text = ocr_from_pdf(pdf_path)
print(text)

在示例代码中，我们使用textract.process()函数来处理PDF文件。我们指定了OCR方法为Tesseract，并设置语言为英文（language='eng'）。函数返回的结果是识别的文本，我们使用decode('utf-8')将其解码为字符串。

请注意，使用textract库进行OCR时，你需要确保已经安装了Tesseract OCR引擎，并且设置了正确的语言数据。你可以根据需要安装Tesseract并下载所需的语言数据。

这个示例代码使用了textract库来进行OCR识别，它是一个通用的文本提取库，支持多种文件格式的文本提取，包括PDF文件。你可以根据自己的需求选择适合的OCR库来进行PDF文件中图像文字的识别。

使用pyocr进行OCR示例代码

import pyocr
from PIL import Image

def ocr\_from\_image(image_path):
    tools = pyocr.get_available_tools()
    if len(tools) == 0:
        print("OCR工具未找到")
        return

    tool = tools[0]  # 使用第一个可用的OCR工具

    image = Image.open(image_path)
    text = tool.image_to_string(image, lang='eng', builder=pyocr.builders.TextBuilder())

    return text

# 使用示例
image_path = "image.jpg"  # 输入图像文件路径

text = ocr_from_image(image_path)
print(text)

在这个示例代码中，我们首先使用pyocr.get_available_tools()函数获取可用的OCR工具列表，并选择第一个工具进行OCR识别。

然后，我们使用Image.open()函数打开输入的图像文件。

接下来，我们使用选定的OCR工具的image_to_string()函数将图像中的文字识别为文本。我们还指定了lang='eng'参数来设置识别的语言为英语，你可以根据需要调整语言参数。

最后，我们返回识别的文本结果。

请注意，使用pyocr库进行OCR时，你需要确保已经安装了相应的OCR引擎，并且设置了正确的语言数据。你可以根据需要安装OCR引擎（如Tesseract）并下载所需的语言数据。

这个示例代码使用了pyocr库来进行OCR识别，它提供了对多种OCR引擎的封装，包括Tesseract、CuneiForm等。你可以根据自己的需求选择适合的OCR库来进行。

（七）编辑PDF文件示例代码

在这里插入图片描述

添加文本和图像示例代码

下面是使用PyPDF4库在PDF文件中添加文本和图像的示例代码：

from PyPDF4 import PdfFileReader, PdfFileWriter
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

def add\_text\_to\_pdf(input_pdf, output_pdf, text, x, y):
    pdf = PdfFileReader(input_pdf)
    writer = PdfFileWriter()

    page = pdf.getPage(0)  # 获取第一页
    page.mergePage(blank_page_with_text(text, x, y))  # 合并带有文本的空白页面

    writer.addPage(page)

    with open(output_pdf, 'wb') as f:
        writer.write(f)

def blank\_page\_with\_text(text, x, y):
    c = canvas.Canvas('blank.pdf', pagesize=letter)
    c.drawString(x, y, text)
    c.save()

    return PdfFileReader('blank.pdf').getPage(0)

# 使用示例
input_pdf = 'input.pdf'  # 输入PDF文件路径
output_pdf = 'output.pdf'  # 输出PDF文件路径
text = 'Hello, World!'  # 要添加的文本内容
x = 100  # 文本的横坐标位置
y = 100  # 文本的纵坐标位置

add_text_to_pdf(input_pdf, output_pdf, text, x, y)

在上面的示例代码中，我们定义了一个add_text_to_pdf()函数，它接受输入PDF文件的路径、输出PDF文件的路径、要添加的文本内容以及文本的横纵坐标位置作为参数。

首先，我们使用PdfFileReader()函数打开输入PDF文件，并创建一个PdfFileWriter()对象来写入新的PDF文件。

然后，我们使用getPage(0)方法获取输入PDF文件的第一页。

接下来，我们使用blank_page_with_text()函数创建一个带有指定文本的空白页面，并将其与输入PDF文件的第一页合并。

然后，我们将合并后的页面添加到PdfFileWriter()对象中。

最后，我们使用write()方法将生成的PDF文件写入输出文件。

blank_page_with_text()函数使用reportlab库创建一个带有指定文本的空白页面，然后将其转换为PyPDF4库的PageObject对象。

请注意，上述代码中的文本位置坐标是相对于页面的左下角的，以点（1/72英寸）为单位。你可以根据需要调整文本的位置。

此外，如果你想在PDF文件中添加图像元素，你可以使用类似的方法。你可以使用reportlab库创建一个带有图像的空白页面，然后将其与输入PDF文件的页面合并。

修改文本和图像示例代码

使用PyMuPDF（也称为fitz）和ReportLab。这些库提供了更多的功能来处理PDF文件中的文本和图像。

a. 使用PyMuPDF（fitz）库修改PDF文件中文本和图像的示例代码：

import fitz

def modify\_pdf(input_pdf, output_pdf):
    doc = fitz.open(input_pdf)

    for page in doc:
        # 修改文本
        modify_text(page)

        # 修改图像
        modify_image(page)

    doc.save(output_pdf)
    doc.close()

def modify\_text(page):
    # 获取所有文本块
    text_blocks = page.getTextBlocks()

    for block in text_blocks:
        # 修改文本样式
        block[4]['fontname'] = 'Arial'
        block[4]['size'] = 12
        block[4]['color'] = (0, 0, 1)  # 蓝色

    page.setTextBlocks(text_blocks)

def modify\_image(page):
    # 获取所有图像块
text_blocks = page.getImageList()

    for block in text_blocks:
        # 修改图像位置和大小
        x, y, width, height = block[:4]
        new_x = x + 50  # 增加50个单位的水平偏移量
        new_y = y + 50  # 增加50个单位的垂直偏移量
        new_width = width \* 1.5  # 增加50%的宽度
        new_height = height \* 1.5  # 增加50%的高度
        block[:4] = new_x, new_y, new_width, new_height

    page.setImageList(text_blocks)

# 使用示例
input_pdf = 'input.pdf'
output_pdf = 'output.pdf'

modify_pdf(input_pdf, output_pdf)

请注意，PyMuPDF（fitz）库使用的是MuPDF渲染引擎，支持对PDF文件进行更高级的修改。你可以根据具体的需求，修改示例代码中的文本和图像处理部分，以实现你想要的修改效果。

b. 使用ReportLab库修改PDF文件的文本和图像

下面是一个使用ReportLab库修改PDF文件文本和图像的示例代码：

from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
from reportlab.lib.units import inch
from reportlab.lib import utils

def modify\_pdf(input_pdf, output_pdf):
    # 创建画布
    c = canvas.Canvas(output_pdf, pagesize=letter)

    # 打开输入PDF文件
    with open(input_pdf, 'rb') as f:
        # 读取每一页的内容并进行修改
        for page in utils.pagesizes.iter_pagesizes(f):
            c.setPageSize(page)
            c.showPage()

            # 修改文本
            modify_text(c)

            # 修改图像
            modify_image(c)

    # 保存修改后的PDF文件
    c.save()

def modify\_text(c):
    # 修改文本
    c.setFont("Helvetica", 12)
    c.drawString(1 \* inch, 10 \* inch, "Modified Text")

def modify\_image(c):
    # 修改图像
    image_path = "image.jpg"
    c.drawImage(image_path,