练习：将图片版PDF（不可复制）通过OCR转换为可编辑的PDF

最新推荐文章于 2024-08-08 08:00:00 发布

dianepure

最新推荐文章于 2024-08-08 08:00:00 发布

阅读量3.3k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/dianepure/article/details/88568761

版权

Python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

一背景

今天有朋友咨询这个问题，于是在网上搜索了一番，很多方案都是在linux、mac下的，好在找到了windos的，借鉴了博主nightttt7的思路、源码，整合出了一个可用的程序，相关博主在最下方给出。

二实现思路

将原PDF文件切割为多张单页图片，利用OCR逐页扫描单页图片获得文本信息，将识别的文本信息输出为新的PDF。最终结果的优劣大程度来自于所使用OCR的识别精准度，其次来源于切割单页图片的质量、输出新PDF的格式。

根据思路，我们大致可以开始准备实现目标所需的功能模块：

1）将1个PDF文件切割为多张单页图片的工具

2）高精准度识别图片的OCR工具

3）将识别内容封装为PDF文件的工具

三使用模块

jtyoui # 用于将pdf跟图片相互转换，作者亦写有可视化程序可直接使用（此项目git）

pypdf2 # 用于拆分和合并pdf

baidu-aip # 百度OCR识别接口

pdfkit # 将字符串生成pdf

需预先安装软件：

--------wkhtmltopdf ：https://wkhtmltopdf.org/downloads.html

--------> 配合 pdfkit模块，用于将字符串生成PDF

四源码

from PyPDF2 import PdfFileReader, PdfFileWriter
from aip import AipOcr
import pdfkit
import fitz
import time
import os
time1 = time.time()
# 配置初始参数
path = 'G:\Python\First'  # PDF 文件的路径
pdfname = '容斋六笔.pdf'  # PDF 文件的文件名
path_wk = r'C:\Python_extend\wkhtmltopdf\bin\wkhtmltopdf.exe'  # wkhtmltopdf.exe 文件的安装位置
pdfkit_config = pdfkit.configuration(wkhtmltopdf=path_wk)
pdfkit_options = {'encoding': 'UTF-8', }

# 打开 https://console.bce.baidu.com/#/index/overview  （产品服务->人工智能->文字识别->创建应用）中获取以下三个值
APP_ID = 'str'
API_KEY = 'str'
SECRET_KEY = 'str'


def pdf_image():
    pdf = fitz.open('{}\{}'.format(path, pdfname))
    for pg in range(0, pdf.pageCount):
        page = pdf[pg]  # 获得每一页的对象
        trans = fitz.Matrix(1.0, 1.0).preRotate(0)
        pm = page.getPixmap(matrix=trans, alpha=False)  # 获得每一页的流对象
        pm.writePNG(path + os.sep + pdfname[:-4] + '_' + '{:0>3d}.png'.format(pg + 1))  # 保存图片
    page_range = range(pdf.pageCount)
    pdf.close()
    return page_range


def read_png2api(page_range):
    # 读取本地图片的函数
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()

    allteststr = []
    image_list = []
    for page_num in page_range:
        # 读取本地图片
        image = get_file_content(r'{}\{}_{}.png'.format(path, pdfname[:-4], '%03d' % (page_num + 1)))
        image_list.append(image)

    # 新建一个AipOcr
    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
    # 可选参数
    options = {}
    options["language_type"] = "CHN_ENG"
    options["detect_direction"] = "false"
    options["detect_language"] = "false"
    options["probability"] = "false"
    for image in image_list:
        # 通用文字识别,得到的是一个dict
        testjson = client.basicGeneral(image, options)
        teststr = ''
        for x in testjson['words_result']:
            teststr = teststr + x['words'] + '</br>'
        print('正在调用百度接口：第{}个，共{}个'.format(len(allteststr), len(image_list)))
        allteststr.append(teststr)
    return allteststr


def str2pdf(page_range, allteststr):
    # 字符串写入PDF
    for page_num in page_range:
        print('正在将字符串写入PDF：第{}个，共{}个'.format((page_num + 1), len(page_range)))
        pdfkit.from_string((allteststr[page_num]), '%s.pdf' % (str(page_num + 1)),
                           configuration=pdfkit_config, options=pdfkit_options)


def pdf_merge(page_range):
    # 合并单页PDF
    pdf_output = PdfFileWriter()
    for page_num in page_range:
        print('正在合并单页：第{}个，共{}个'.format((page_num + 1), len(page_range)))
        os.chdir(path)
        pdf_input = PdfFileReader(open('%s.pdf' % (str(page_num + 1)), 'rb'))
        page = pdf_input.getPage(0)
        pdf_output.addPage(page)
    pdf_output.write(open('new_{}.pdf'.format(pdfname), 'wb'))


if __name__ == '__main__':
    range_Count = pdf_image()
    all_th = read_png2api(range_Count)
    str2pdf(range_Count, all_th)
    pdf_merge(range_Count)
    time2 = time.time()
    print('{}次爬取共消耗时间{}秒'.format('本', round(time2 - time1, 2)))

参考文章：https://blog.csdn.net/sqq513/article/details/79368243