python文字识别像素点_Tesseract OCR,读取低分辨率/像素化字体(尤其是数字)

本文介绍了一种使用OpenCV和Tesseract OCR处理低分辨率和像素化字体,特别是数字的方法。通过调整Tesseract参数和应用图像增强技术,实现了在小图像上的有效文字识别。
摘要由CSDN通过智能技术生成

只是厌倦了使用你的小的和放大的(x4)图像馈送到Tesseract 4.0.0a。即使调整了Tesseract参数,小图像也没有输出。扩大后的一个能够OCR在所有三个案例测试-没有进一步的处理,灰度和进一步增强。在

使用的Tesseract集成到OpenCV 3.2.0中。以下是代码。在import cv2

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

def show(img):

plt.imshow(img, cmap="gray")

plt.show()

def ocr(img):

# Tesseract mode settings:

# Page Segmentation mode (PSmode) = 3 (defualt = 3)

# OCR Enginer Mode (OEM) = 3 (defualt = 3)

tesser = cv2.text.OCRTesseract_create('C:/Program Files/Tesseract 4.0.0/tessdata/','eng','0123456789',3,3)

retval = tesser.run(img, 0) # return string type

print 'OCR Output: ' + retval

# Directly feed image to Tesseact

img = cv2.imread('./imagesStackoverflow/SmallDigits-x4.png')

ocr(img)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
首先,感谢您对OCR技术的关注。针对您的问题,我来为您提供一些解答。 Tesseract-OCR是一个免费的OCR引擎,可用于将图像中的文字转换为文本。而jTessBoxEditor是Tesseract-OCR提供的一个GUI界面,可以用于训练OCR识别模型,以提高其准确率。 以下是使用jTessBoxEditor提高OCR识别准确率的一些步骤: 1. 准备训练数据。首先需要准备一些训练图像和相应的文本文件,用于训练OCR模型。 2. 打开jTessBoxEditor。在菜单栏中选择“Tools”->“Merge Tiff”,将训练图像合并成一个多页Tiff文件。 3. 生成Box文件。在菜单栏中选择“Tools”->“Generate Box File”,对合并后的Tiff文件进行分页,并生成对应的Box文件。 4. 编辑Box文件。在菜单栏中选择“Tools”->“Box Editor”,打开Box文件并进行编辑。可以通过手动添加和删除Box框,来指定OCR识别的区域和内容。 5. 训练OCR模型。在菜单栏中选择“Tools”->“Train Tesseract”,进行OCR模型训练。训练完成后,会生成一个新的OCR语言包文件。 6. 测试OCR识别效果。在菜单栏中选择“Tools”->“Test Image”,用训练好的OCR语言包来对新的图像进行OCR识别,并评估识别准确率。 希望这些步骤能对您有所帮助,提高OCR识别率。同时,需要注意的是,OCR技术的准确率还受到许多因素的影响,如图像质量、文字大小、字体等。因此,在实际应用中,还需要针对具体的场景进行调整和优
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值