基于Tesseract—OCR技术的文字识别优化

 

一、需求分析

对天猫平台的企业信息采集下来进行结构化处理,提取出文字信息后汇总进Excel作为交付文件。

主要的功能设计如下:

1、程序能够自动读取企业工商信息图片所在的文件夹路径,并从文件夹路径中顺序取出图片进行识别,最终的识别结果以一份汇总的Excel交付。

2、因为天猫平台公示的图片内容没有固定格式,所以需要程序能匹配不同格式的图片内容提取信息。

3、能够提取出图片中的企业注册号、企业名称数据项,企业注册号、企业名称数据项要进行分析处理。

4、识别准确率需要保证在95%以上。

5、识别速度保持在60秒识别50张图片。

二、本程序处理图片方面的关键模块

1、对图片进行切割:

要求识别的文字信息“企业名称”“企业注册号”位于整个图片的其中一部分,把剩余部分切除,只留下关键信息部分,不但可以提高识别速度,还可提升识别率。

2、在进行图片的二值化时,有两种方式:

(1)图片为彩色时,宜找到每个像素点合适的灰色度,因为每个像素点的灰色度不同程度上受到周边像素加权影响,从而影响整个图片的识别率。比如本像素点加上周围8个灰度值再除以9,算出其相对灰度值。

(2)图片为黑白色时,宜采用max-min方法对图片进行二值化。

针对本程序识别的图片的黑白色对比明显,故采用max-min方法进行二值化。

private static File binaryImage(File orcFile) throws IOException {

// 获取图片的BufferedImage对象

BufferedImage bi = ImageIO.read(orcFile);

int h = bi.getHeight();// 获取图片的高

int w = bi.getWidth();// 获取图片的宽

BufferedImage nbi = new BufferedImage(w, h, BufferedImage.TYPE_BYTE_BINARY);

// 设置合适的经验阈值,对二值化的识别效果起重要作用

int threshold = new Color(20, 20, 20).getRGB();// 阈值对应的颜色位于黑色文字和偏黑色背景颜色区间即可

for (int x = 0; x < w; x++) {

for (int y = 0; y < h; y++) {

// 二值化處理

if (bi.getRGB(x, y) > threshold) {

int max = new Color(255, 255, 255).getRGB();

nbi.setRGB(x, y, max);

} else {

int min = new Color(0, 0, 0).getRGB();

nbi.setRGB(x, y, min);

}

}

}

// 将二值化处理后的图片放于D:\\orc_cut_binary下

String orcFileName = orcFile.getName();

String binaryDir = "D:\\orc_cut_binary";

File dir = new File(binaryDir);

// 存储目录不存在,则创建目录

if (!dir.exists()) {

dir.mkdirs();

}

File binaryFile = new File(binaryDir + "/" + orcFileName.substring(0, orcFileName.indexOf(".")) + "binary.png");

ImageIO.write(nbi, "png", binaryFile);

return binaryFile;

}

3、在选取二值化中的经验阈值,我们有以下思路:

(1)二值化微分计算阈值

(2)二值化类卷积的对梯度变化加强得到阈值

对24位位图进行中值滤波会改变RGB各分量的值,所以图片的颜色会发生变化,但对于8位的位图,由于都是灰度的颜色,所以变化并不明显,而且滤波的窗口选的越大,对应的滤波效果的模糊度也会上升。

4、增加图片的亮度:

增加图片亮度可以使有些彩色图片的识别率大大增加,本程序别的图片为黑白照片,增加图片亮度提升的识别率并不乐观。

5、对图片的边缘进行尖锐化处理:

锐化可以快速调整图像边缘细节的对比度,并在边缘的两侧生成一条亮线一条暗线,使画面整体更加清晰。对于高分辨率的输出,通常锐化效果在屏幕上显示比印刷出来的更明显。在图片的Alpha值保持不变的情况下,本程序前期也进行了锐化处理,但效果并不明显,有时识别率甚至可能低于未锐化处理的图片。

6、对图片进行平滑缩放:

有时很多图片本身无法很好的被识别,但当放大适当倍数时,就可增强识别率,但这个“适当倍数”很难把控,它受诸多硬件因素影响,比如电脑配置、针式打印机打印连贯性差等问题。

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Tesseract-OCR是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以将图片中的文字转换为可编辑的文本。它最早由惠普实验室开发并于2005年移交给Google维护。 Tesseract-OCR基于机器学习算法,能够从图像中准确地识别出文字。它支持多种语言,包括中文,而且能够适应各种场景,如印刷品、手写文字、图片中的文字等等。 使用Tesseract-OCR库的过程相对简单。首先,需要将待识别的图片转换为适合Tesseract-OCR处理的格式,如TIFF或PNG。然后,调用Tesseract-OCR库的API,将图片作为参数传递给库,即可得到识别结果。 Tesseract-OCR识别库具有以下几个优点。首先,它是一个开源项目,这意味着任何人都可以查看、修改和提升其代码,使其更适应不同的需求。其次,它训练有素,可以提供高准确率文字识别结果。此外,Tesseract-OCR库还可以通过训练自定义字体来提高特定字体的识别准确率,这一点对于需要处理特定类型文字的应用非常有用。 然而,Tesseract-OCR库也存在一些局限性。首先,它对于复杂图形或低分辨率的图片的识别效果较差。其次,虽然Tesseract-OCR支持中文识别,但对于一些特殊的中文字符或排版形式可能出现辨识错误的情况。 综上所述,Tesseract-OCR是一个功能强大的OCR识别库,适用于各种场景的文字识别需求。无论是从印刷品、手写文字还是图片中提取文字,Tesseract-OCR都能够提供准确的识别结果,并且其开源性质和可定制化的特点为用户提供了更大的自由度。 ### 回答2: Tesseract-OCR识别库是一个开源的光学字符识别(OCR)工具,由HP实验室开发,现由Google维护。它能够将印刷体或手写体的文字转换为计算机可识别的文本。 Tesseract-OCR识别库支持多种语言和平台,并且是一个高度准确的OCR引擎。它具有丰富的功能,包括自动文本分区、文本对齐和格式化、自动旋转图像等。此外,它还可以识别多个字体、文字大小和颜色的文本。 Tesseract-OCR识别库的使用也非常简单。它可以通过API或命令行界面进行调用和集成,还提供了生成HTML、PDF等格式文件的功能。用户可以通过调整参数来优化识别结果,如设置语言、字体和识别区域等。 Tesseract-OCR识别库在各种应用中得到广泛应用。它可以用于数字化文档、扫描文档、文本识别和自动化处理等方面。通过将纸质文档转换为可编辑的文本文件,可以提高办公效率和搜索能力,并方便文档的归档和分享。 总的来说,Tesseract-OCR识别库是一个强大且易于使用的工具,能够准确地将印刷体或手写体的文字转换为计算机可识别的文本。它的广泛应用范围使它成为数字化时代的重要工具之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值