如何识别pdf文档中的文字(图像识别)python

如何识别pdf文档中的文字(图像识别)

直接处理pdf文档,来识别其中的文字比较困难,尝试过各种pdf的各种包,重要都是些处理格式的,或者只能读取当pdf文字可以选取的这类pdf文件,像那种扫描的pdf文档则不可以识别。
处理思路就是通过讲pdf文件的每一页转化为图片,然后再讲图片的中的文字,进行识别输出。这样的整体难度降低,也比较容易实现。
通过查阅资料,总结一下要点,给大伙留个参考

mac安装tesseract

通过查阅资料,mac安装的资料比较少,如果你是wins或linux(离线)的,可以直接查找相关的问题。
通过brew来安装的

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
brew -v
brew install tesseract

出现下面的截图

tesseract -v

出现下面这样就安装成功了,可能每个人不一样(大体差不多)

万里长征第一步就可以了,我们还需要解决如何用python来用它,就有了pytesseract,那自然是需要安装的

pip install pytesseract
pip install pillow

然后建立一个py文件运行。

import pytesseract
from PIL import Image
image = Image.open('./image/images_2.png')
code = pytesseract.image_to_string(image)
print(code)

图片大家可以随便截取一段不是中文的试一试就可以,基本上都是可以识别出来的,这时候善于捣鼓的盆友就会发现,好像不能识别汉语!!!bingo,确实不能识别,这里需要假如语言包,也很简单。
https://github.com/tesseract-ocr/tessdata
这里就能看到语言包啦,正常情况可以点第一个下载就可以了,但是我尝试的时候,总是刷不出来,没办法,我就全部下载下来了,六七百兆的样子。

那到这个语言包,得找个地方放呢?我也和大家一样迷惑,没找到该放到哪里,于是我就运行了一下这个程序

import pytesseract
from PIL import Image
image = Image.open('./image/images_2.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

然后就会报错,告诉你哪里哪里缺少这个语言包的文件,然后你就将文件放到哪里文件夹下就可以了。
我也把我的路径给大家做个参考,万一按照我的方法不太对就不好了。
/usr/local/share/tessdata
按照这两个都找找看。

然后就可以咯。给大家看看我的成果哈!
以下面的图片为列子


怎么样识别的还算可以吧。后来我也用到一些我们公司需要用的公文,这个图片不能给大家看,属于机密。发现了一些问题,识别的好不好还是要看分辨率,通过直接截图的图片来识别,和将pdf切成图片来识别,前者的准确率更高一点。其次我以为pdf上有水印的部分,我以为会对识别有什么干扰,实验发现居然没有,意外之喜,个人浅显的认为是水印的灰度比较小的原因吧,当然也不是所有水印,大家这方面有问题的话,可以先对图片再处理。

pdf2pic

这部分就是将pdf转换为pic,说声抱歉的是,我忘记需要安装哪些包了,其次下面这段代码我也不知道从哪里copy的。我相信聪明的大家肯定会搜出来的!

# _*_ coding utf-8 _*_
# Author :GhostintheCode
# Time : 11:30 上午


import sys, fitz
import os
import datetime


def pyMuPDF_fitz(pdfPath, imagePath):
    startTime_pdf2img = datetime.datetime.now()  # 开始时间

    pdfDoc = fitz.open(pdfPath)
    for pg in range(pdfDoc.pageCount):
        page = pdfDoc[pg]
        rotate = int(0)
        # 每个尺寸的缩放系数为1.3,这将为我们生成分辨率提高2.6的图像。
        # 此处若是不做设置,默认图片大小为:792X612, dpi=72
        zoom_x = 1.33333333  # (1.33333333-->1056x816)   (2-->1584x1224)
        zoom_y = 1.33333333
        mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
        pix = page.getPixmap(matrix=mat, alpha=False)

        if not os.path.exists(imagePath):  # 判断存放图片的文件夹是否存在
            os.makedirs(imagePath)  # 若图片文件夹不存在就创建

        pix.writePNG(imagePath + '/' + 'images_%s.png' % pg)  # 将图片写入指定的文件夹内

    endTime_pdf2img = datetime.datetime.now()  # 结束时间
    print('pdf2img时间=', (endTime_pdf2img - startTime_pdf2img).seconds)


if __name__ == "__main__":
    pdfPath = './4.pdf'
    imagePath = './image'
    pyMuPDF_fitz(pdfPath, imagePath)#只是转换图片
  • 1
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 以下是一个简单的Python代码,可以使用Python的OCR库(例如PyTesseract)自动识别文档文字: ```python import pytesseract from PIL import Image # 加载图像 image = Image.open('document.jpg') # 识别文本 text = pytesseract.image_to_string(image, lang='eng') # 输出文本 print(text) ``` 这个代码首先使用PIL库加载图像,然后使用PyTesseract库识别文本。在这个示例,我们将识别英文文本,因此我们将`lang`参数设置为`eng`。最后,我们将识别的文本输出到控制台。 ### 回答2: 自动识别文档文字Python代码可以使用第三方库textract。首先,需要确保已安装textract库,可以使用以下命令进行安装: ```python pip install textract ``` 然后,导入textract库并使用`process`函数来处理文档。例如,处理一个名为`document.docx`的Word文档,可以使用以下代码: ```python import textract text = textract.process('document.docx') print(text) ``` `process`函数会自动将文档文字提取出来,并将其存储在一个字符串变量`text`。你可以根据具体情况进行进一步的处理,比如将提取出的文字进行分析、保存到数据库等。 需要注意的是,textract库支持处理多种文件类型,包括Word文档PDF、PowerPoint演示文稿等,你只需要将对应的文件路径传递给`process`函数即可。此外,textract库也支持多种操作系统,包括Windows、Linux和Mac OS。 如果在使用过程遇到问题,可以查阅textract的官方文档了解更多用法和示例:https://textract.readthedocs.io/ ### 回答3: 自动识别文档文字是指使用python代码实现对文档文字的自动识别和提取。一般通过OCR(Optical Character Recognition,光学字符识别)技术实现。 在Python,可以使用第三方库如Tesseract实现对文档文字的自动识别。以下是一个简单的示例代码: ```python import pytesseract from PIL import Image # 读取文档图片 image = Image.open('document.jpg') # 使用Tesseract进行OCR识别 text = pytesseract.image_to_string(image, lang='eng') # 输出识别结果 print(text) ``` 上述代码首先导入了pytesseract库和PIL库,其pytesseract是Tesseract的Python接口,而PIL则是用于图像处理的库。接下来,使用`Image.open`函数读取文档图片,然后通过`pytesseract.image_to_string`函数进行OCR识别,`lang='eng'`参数指定了识别语言为英语。 最后,通过`print`函数输出识别结果。 需要注意的是,使用Tesseract进行OCR识别时,需要提前安装Tesseract OCR引擎,并将其添加到系统环境变量。在Windows系统,可以在Tesseract的官方网站(https://github.com/tesseract-ocr/tesseract)下载安装包,并按照指引进行安装。 此外,对于不同类型的文档,可能需要调整OCR识别参数,以获得更好的识别效果。可以通过查阅Tesseract文档和尝试不同的参数进行优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值