java ocr识别中文_[转]Java OCR 图像智能字符识别技术，可识别中文

最新推荐文章于 2024-07-10 10:55:49 发布

懂茶帝

最新推荐文章于 2024-07-10 10:55:49 发布

阅读量585

点赞数

文章标签： java ocr识别中文

本文链接：https://blog.csdn.net/weixin_30189297/article/details/114546394

版权

这篇博客介绍了如何使用Java实现OCR（光学字符识别）技术来识别中文字符。作者探讨了不同OCR引擎对中文的支持情况，特别是Tesseract 3.0版本开始支持中文的特点。文章还提供了一个名为`ImageFilter`的Java类，该类包含多种图像预处理方法，如二值化、锐化和中值滤波，以提高OCR识别成功率。最后，展示了如何调用Tesseract进行中文文字识别，并给出了代码示例。

摘要由CSDN通过智能技术生成

几天一直在研究OCR技术，据我了解的情况，国内最专业的OCR软件只有2家，清华TH-OCR和汉王OCR，看了很多的OCR技术发现好多对英文与数字的支持都很好，可惜很多都不支持中文字符。Asprise-OCR，Tesseract 3.0以前的版本，都不支持中文，其实我用了下Asprise-OCR算是速度比较的快了，可惜他鄙视中文，这个没有办法，正好这段时间知名的开源OCR引擎Tesseract 3.0版本发布了，他给我们带来的好消息就是支持中文，相关的下载项目网站是：

虽然速度不是很客观可是毕竟人家开始支持中文也算是不错的，一个英文的语言包大概是1.8M,中文简体的语言包是39.5M,中文繁体的语言包是53M，这样就知道为什么识别中文慢的原因了

packagecom.ocr;

importjava.awt.Graphics2D;

importjava.awt.color.ColorSpace;

importjava.awt.geom.AffineTransform;

importjava.awt.image.AffineTransformOp;

importjava.awt.image.BufferedImage;

importjava.awt.image.ColorConvertOp;

importjava.awt.image.ColorModel;

importjava.awt.image.MemoryImageSource;

importjava.awt.image.PixelGrabber;

/**

*图像过滤,增强OCR识别成功率

publicclassImageFilter {

privateBufferedImageimage;

privateintiw,ih;

privateint[]pixels;

publicImageFilter(BufferedImage image) {

this.image= image;

iw= image.getWidth();

ih= image.getHeight();

pixels=newint[iw*ih];

}

/**图像二值化*/

publicBufferedImage changeGrey() {

PixelGrabber pg =newPixelGrabber(image.getSource(), 0, 0,iw,ih,pixels, 0,iw);

try{

pg.grabPixels();

}catch(InterruptedException e) {

e.printStackTrace();

}

//设定二值化的域值，默认值为100

intgrey = 100;

//对图像进行二值化处理，Alpha值保持不变

ColorModel cm = ColorModel.getRGBdefault();

for(inti = 0; i

intred, green, blue;

intalpha = cm.getAlpha(pixels[i]);

if(cm.getRed(pixels[i]) > grey) {

red = 255;

}else{

red = 0;

}

if(cm.getGreen(pixels[i]) > grey) {

green = 255;

}else{

green = 0;

}

if(cm.getBlue(pixels[i]) > grey) {

blue = 255;

}else{

blue = 0;

}

pixels[i] = alpha << 24 | red << 16 | green << 8 | blue;

}

//将数组中的象素产生一个图像

returnImageIOHelper.imageProducerToBufferedImage(newMemoryImageSource(iw,ih,pixels, 0,iw));

}

/**提升清晰度,进行锐化*/

publicBufferedImage sharp() {

PixelGrabber pg =newPixelGrabber(image.getSource(), 0, 0,iw,ih,pixels, 0,iw);

try{

pg.grabPixels();

}catch(InterruptedException e) {

e.printStackTrace();

}

//象素的中间变量

inttempPixels[] =newint[iw*ih];

for(inti = 0; i

tempPixels[i] =pixels[i];

}

//对图像进行尖锐化处理，Alpha值保持不变

ColorModel cm = ColorModel.getRGBdefault();

for(inti = 1; i

for(intj = 1; j

intalpha = cm.getAlpha(pixels[i *iw+ j]);

//对图像进行尖锐化

intred6 = cm.getRed(pixels[i *iw+ j + 1]);

intred5 = cm.getRed(pixels[i *iw+ j]);

intred8 = cm.getRed(pixels[(i + 1) *iw+ j]);

intsharpRed = Math.abs(red6 - red5) + Math.abs(red8 - red5);

intgreen5 = cm.getGreen(pixels[i *iw+ j]);

intgreen6 = cm.getGreen(pixels[i *iw+ j + 1]);

intgreen8 = cm.getGreen(pixels[(i + 1) *iw+ j]);

intsharpGreen = Math.abs(green6 - green5) + Math.abs(green8 - green5);

intblue5 = cm.getBlue(pixels[i *iw+ j]);

intblue6 = cm.getBlue(pixels[i *iw+ j + 1]);

intblue8 = cm.getBlue(pixels[(i + 1) *iw+ j]);

intsharpBlue = Math.abs(blue6 - blue5) + Math.abs(blue8 - blue5);

if(sharpRed > 255) {

sharpRed = 255;

最低0.47元/天解锁文章

懂茶帝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java ocr识别中文_[转]Java OCR 图像智能字符识别技术，可识别中文

几天一直在研究OCR技术，据我了解的情况，国内最专业的OCR软件只有2家，清华TH-OCR和汉王OCR，看了很多的OCR技术发现好多对英文与数字的支持都很好，可惜很多都不支持中文字符。Asprise-OCR，Tesseract 3.0以前的版本，都不支持中文，其实我用了下Asprise-OCR算是速度比较的快了，可惜他鄙视中文，这个没有办法，正好这段时间知名的开源OCR引擎Tesseract 3....
复制链接

扫一扫