验证码解析




按照说明,送入tesseract的图片的质量直接影响识别的效果,因此,简单的预处理是不可或缺的

1.首先灰度化,灰度值=0.3R+0.59G+0.11B:
for (int y = minY; y < height; y++) {
    for (int x = minX; x < width; x++) {
        int rgb = srcImg.getRGB(x, y);
        Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
        int gray = (int) (0.3 * color.getRed() + 0.59
            * color.getGreen() + 0.11 * color.getBlue());
        Color newColor = new Color(gray, gray, gray);
        srcImg.setRGB(x, y, newColor.getRGB());
    }
}

结果如图:


2.其次是灰度反转:
for (int y = minY; y < height; y++) {
    for (int x = minX; x < width; x++) {
        int rgb = buffImg.getRGB(x, y);
        Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
        Color newColor = new Color(255 - color.getRed(), 255 - color
            .getGreen(), 255 - color.getBlue());
        buffImg.setRGB(x, y, newColor.getRGB());
    }
}

结果如图:


3.再次是二值化,取图片的平均灰度作为阈值,低于该值的全都为0,高于该值的全都为255:
for (int y = minY; y < height; y++) {
    for (int x = minX; x < width; x++) {
        int rgb = buffImg.getRGB(x, y);
        Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
        int value = 255 - color.getBlue();
        if (value > average) {
            Color newColor = new Color(0, 0, 0);
            buffImg.setRGB(x, y, newColor.getRGB());
        } else {
            Color newColor = new Color(255, 255, 255);
            buffImg.setRGB(x, y, newColor.getRGB());
        }
    }
}

结果如图:


看看效果还凑合,就省却尺寸调整、中值滤波以及噪点去除等步骤了。

以上完成图片预处理工作;Tesseract没有开放api,纯命令行调用:
List<String> cmd = new ArrayList<String>(); // 存放命令行参数的数组
cmd.add(tessPath + "\\tesseract");
cmd.add("");
cmd.add(outputFile.getName()); // 输出文件位置
cmd.add(LANG_OPTION); // 字符类别
cmd.add("eng"); // 英文,找到tessdata里对应的字典文件。
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());

cmd.set(1, tempImage.getName()); // 把图片文件位置放在第一个位置

pb.command(cmd); // 执行命令行
pb.redirectErrorStream(true); // 通知进程生成器是否合并标准错误和标准输出,把进程错误保存起来。
Process process = pb.start(); // 开始执行进程

int w = process.waitFor(); // 当前进程停止,直到process停止执行,返回执行结果.


结果输出表示一切正常

当然,真正要用好tesseract-ocr,还需用到其强大地训练工具,就是后话了……

转载于:https://my.oschina.net/jiMap/blog/665811

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值