【PDF区域识别改名+导表格】扫描PDF文档自定义指定多个识别区域,识别固定位置的文字并保存到Excel详细步骤及制作详细教程,代码直接可用

在日常办公中,员工经常需要从PDF文件中提取表格数据。手动进行OCR识别、表格提取、重命名和导出操作繁琐且容易疲劳。例如,行政人员处理办公用品采购清单PDF时,每次都要重复这些步骤,自动化工具可大大节省时间。

以下是使用 Python 和飞桨实现扫描 PDF 文档自定义指定多个识别区域,识别固定位置的文字并导出到 Excel 的详细步骤及开发教程:

一、开发思路

  1. 使用 pdf2image 将 PDF 文档转换为图像,以便进行 OCR 识别。
  2. 使用飞桨的 PaddleOCR 进行文字识别。
  3. 使用 openpyxl 库将识别结果存储到 Excel 文件中。
  4. 开发一个简单的用户界面(可选),方便用户输入 PDF 路径、指定识别区域等信息。

二、环境搭建


首先,确保你已经安装了所需的 Python 库:

pip install paddlepaddle paddleocr pdf2image openpyxl

三、具体实现步骤

1. PDF 转图像

from pdf2image import convert_from_path


def pdf_to_image(pdf_path, output_folder):
    images = convert_from_path(pdf_path)
    image_paths = []
    for i, image in enumerate(images):
        image_path = os.path.join(output_folder, f"page_{i}.jpg")
        image.save(image_path, 'JPEG')
        image_paths.append(image_path)
    return image_paths

代码解释:

  • convert_from_path 函数将 PDF 文档转换为图像列表。
  • 遍历图像列表,将每个图像以 page_<页码>.jpg 的格式保存到指定的输出文件夹,并将生成的图像路径存储在 image_paths 列表中。

2. 图像区域文字识别

from paddleocr import PaddleOCR


def ocr_image(image_path, regions):
    ocr = PaddleOCR()
    results = []
    for left, top, right, bottom in regions:
        image = cv2.imread(image_path)
        cropped_image = image[top:bottom, left:right]
        ocr_result = ocr.ocr(cropped_image)
        if ocr_result:
            t
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值