如何识别pdf文档中的文字（图像识别）python

最新推荐文章于 2024-07-09 22:38:42 发布

GhostintheCode

最新推荐文章于 2024-07-09 22:38:42 发布

阅读量5.4k

点赞数 1

分类专栏： python tesseract 文章标签：图像识别 python

本文链接：https://blog.csdn.net/ghostinthecode/article/details/114261746

版权

python 同时被 2 个专栏收录

65 篇文章 2 订阅

订阅专栏

tesseract

1 篇文章 0 订阅

订阅专栏

如何识别pdf文档中的文字（图像识别）

直接处理pdf文档，来识别其中的文字比较困难，尝试过各种pdf的各种包，重要都是些处理格式的，或者只能读取当pdf文字可以选取的这类pdf文件，像那种扫描的pdf文档则不可以识别。
处理思路就是通过讲pdf文件的每一页转化为图片，然后再讲图片的中的文字，进行识别输出。这样的整体难度降低，也比较容易实现。
通过查阅资料，总结一下要点，给大伙留个参考

mac安装tesseract

通过查阅资料，mac安装的资料比较少，如果你是wins或linux（离线）的，可以直接查找相关的问题。
通过brew来安装的

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
brew -v
brew install tesseract

出现下面的截图

tesseract -v

出现下面这样就安装成功了，可能每个人不一样（大体差不多）

万里长征第一步就可以了，我们还需要解决如何用python来用它，就有了pytesseract，那自然是需要安装的

pip install pytesseract
pip install pillow

然后建立一个py文件运行。

import pytesseract
from PIL import Image
image = Image.open('./image/images_2.png')
code = pytesseract.image_to_string(image)
print(code)

图片大家可以随便截取一段不是中文的试一试就可以，基本上都是可以识别出来的，这时候善于捣鼓的盆友就会发现，好像不能识别汉语！！！bingo，确实不能识别，这里需要假如语言包，也很简单。
https://github.com/tesseract-ocr/tessdata
这里就能看到语言包啦，正常情况可以点第一个下载就可以了，但是我尝试的时候，总是刷不出来，没办法，我就全部下载下来了，六七百兆的样子。

那到这个语言包，得找个地方放呢？我也和大家一样迷惑，没找到该放到哪里，于是我就运行了一下这个程序

import pytesseract
from PIL import Image
image = Image.open('./image/images_2.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

然后就会报错，告诉你哪里哪里缺少这个语言包的文件，然后你就将文件放到哪里文件夹下就可以了。
我也把我的路径给大家做个参考，万一按照我的方法不太对就不好了。
/usr/local/share/tessdata
按照这两个都找找看。

然后就可以咯。给大家看看我的成果哈！
以下面的图片为列子

怎么样识别的还算可以吧。后来我也用到一些我们公司需要用的公文，这个图片不能给大家看，属于机密。发现了一些问题，识别的好不好还是要看分辨率，通过直接截图的图片来识别，和将pdf切成图片来识别，前者的准确率更高一点。其次我以为pdf上有水印的部分，我以为会对识别有什么干扰，实验发现居然没有，意外之喜，个人浅显的认为是水印的灰度比较小的原因吧，当然也不是所有水印，大家这方面有问题的话，可以先对图片再处理。

pdf2pic

这部分就是将pdf转换为pic，说声抱歉的是，我忘记需要安装哪些包了，其次下面这段代码我也不知道从哪里copy的。我相信聪明的大家肯定会搜出来的！

# _*_ coding utf-8 _*_
# Author ：GhostintheCode
# Time : 11:30 上午


import sys, fitz
import os
import datetime


def pyMuPDF_fitz(pdfPath, imagePath):
    startTime_pdf2img = datetime.datetime.now()  # 开始时间

    pdfDoc = fitz.open(pdfPath)
    for pg in range(pdfDoc.pageCount):
        page = pdfDoc[pg]
        rotate = int(0)
        # 每个尺寸的缩放系数为1.3，这将为我们生成分辨率提高2.6的图像。
        # 此处若是不做设置，默认图片大小为：792X612, dpi=72
        zoom_x = 1.33333333  # (1.33333333-->1056x816)   (2-->1584x1224)
        zoom_y = 1.33333333
        mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
        pix = page.getPixmap(matrix=mat, alpha=False)

        if not os.path.exists(imagePath):  # 判断存放图片的文件夹是否存在
            os.makedirs(imagePath)  # 若图片文件夹不存在就创建

        pix.writePNG(imagePath + '/' + 'images_%s.png' % pg)  # 将图片写入指定的文件夹内

    endTime_pdf2img = datetime.datetime.now()  # 结束时间
    print('pdf2img时间=', (endTime_pdf2img - startTime_pdf2img).seconds)


if __name__ == "__main__":
    pdfPath = './4.pdf'
    imagePath = './image'
    pyMuPDF_fitz(pdfPath, imagePath)#只是转换图片

GhostintheCode

关注

1
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
如何识别pdf文档中的文字（图像识别）python

如何识别pdf文档中的文字（图像识别）直接处理pdf文档，来识别其中的文字比较困难，尝试过各种pdf的各种包，重要都是些处理格式的，或者只能读取当pdf文字可以选取的这类pdf文件，像那种扫描的pdf文档则不可以识别。处理思路就是通过讲pdf文件的每一页转化为图片，然后再讲图片的中的文字，进行识别输出。这样的整体难度降低，也比较容易实现。通过查阅资料，总结一下要点，给大伙留个参考mac安装tesseract通过查阅资料，mac安装的资料比较少，如果你是wins或linux（离线）的，可以直接查找相
复制链接

扫一扫

专栏目录