首先看看去干扰线的结果(java)
原始图片
去掉干扰线以后的效果
这里说下开发过程中遇到的问题
1.在网上使用了各种java类型的算法,直接对BufferedImage进行操作,但是都不理想
2.在使用Tesseract工具进行ocr识别的时候识别率也不高
解决第一个问题,我结合了网上的去干扰线算法,以及使用了opencv算法。使用的opencv也是借鉴一篇网上的博客。
解决第二个问题,是实用Tesseract工具针对我要识别的验证码进行独立的训练,而不是使用原始的训练数据进行识别,这样子可以明显的提升识别率。
源码
// 这里是调用的核心方法
public class ImageCleanPlanOpencv implements ImageClean{
Logger logger = LoggerFactory.getLogger(ImageCleanPlanOpencv.class);
public BufferedImage clean(BufferedImage oriBufferedImage) {
try {
BufferedImage cleanedBufferedImage = null;
//这里可以看到去燥的方法反复调用了几次,是为了得更好的去干扰线结果,这里可以根据自己的验证码情况来编写调用的次数,必须是偶数次,因为opencv的api会进行图像反色
cleanedBufferedImage = cleanLinesInImage(oriBufferedImage);
cleanedBufferedImage=cleanLinesInImage(cleanedBufferedImage);
cleanedBufferedImage=cleanLinesInImage(cleanedBufferedImage);
cleanedBufferedImage=cleanLinesInImage(cleanedBufferedImage);
// try {
// ImageUtil.generateImage(cleanedBufferedImage, ImageConstant.url,"new_","");
// } catch (IOException e) {
// e.printStackTrace();
// }
return cleanedBufferedImage;
} catch (IOException e) {
logger.error("去噪过程异常",e);
e.printStackTrace();
}
return null;
}
/**
*
* @param oriBufferedImage 需要去噪的图像
* @throws IOException
*/
public BufferedImage cleanLinesInImage(BufferedImage oriBufferedImage) throws IOException{
BufferedImage bufferedImage = oriBufferedImage;
int h = bufferedImage.getHeight();
int w = bufferedImage.getWidth();
// 灰度化
int[][] gray = new int[w][h];
for (