今年软件杯有一个项目是工商图片文字提取。大致的要求就是将天猫给的50张样例图片中的企业名称和注册号提取出来。速度和准确率是这个项目的关键。
我觉得软件杯历年的项目都挺有难度的,很有挑战性。近几年由于人工智能和大数据的飞速发展,项目命题也偏向这方面而不是传统项目了。所以对于程序员来说,除了了解传统项目知识(比如java web三大框架),还要与时俱进,自主学习大数据和人工智能的前沿知识,我认为现在及时转型对个人发展是非常重要的。这可能决定未来的走向,因为在不远的将来,AI和大数据将是主流。
工商图片文字提取涉及到计算机视觉处理,也就是图像识别。本来是想用python写的,会方便点,但是那时候看项目的语言要求,好像不能使用python,只能用java写咯。java图像处理这方面还真不如python。由于底层涉及太多的像素处理等等,我用的是Tesseract-OCR,tess4j这个谷歌的开源框架,识别文字挺好的。能识别一些常用的文字,底层代码都是C++写的,然后用java封装起来,写好方法供上层调用。
这个框架自行百度下载然后配置好就ok了,下面看看我的maven项目结构。
有个特别重要的是tessdata文件夹中要放一些词库,比如英文词库eng.traineddata,中文词库chi_sim.traineddata(要自行下载)等等。如果你想提高这套框架识别的速度和准确率的话,可以去训练对应词库,然后加入到tessdata文件夹下,这样对特定的文字群将会有更好的识别效果。以前是接近0.9秒一张,训练词库以后可以达到0.1秒左右。
另外在识别图片之前,还需要对一些难点图片进行特殊处理,比如翻转,放大缩小,去水印(二值化),灰度处理,图片截取等等,这样预处理对后面的识别有很大的帮助。
总代码:
package Test;
import com.recognition.software.jdeskew.ImageDeskew;
import net.sourceforge.tess4j.ITessAPI;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.Word;
import net.sourceforge.tess4j.util.ImageHelper;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.util.Date;
import java.util.List;
public class Test {
static final double MINIMUM_DESKEW_THRESHOLD = 0.05d;
static ITesseract instance;
public static void main(String[] args) throws Exception{
Date data1=new Date();
//testEn();
testZh();
//Wordbyword_extraction();
Date data2=new Date