首先看看去干扰线的结果(java)
原始图片
去掉干扰线以后的效果
这里说下开发过程中遇到的问题
1.在网上使用了各种java类型的算法,直接对BufferedImage进行操作,但是都不理想
2.在使用Tesseract工具进行ocr识别的时候识别率也不高
解决第一个问题,我结合了网上的去干扰线算法,以及使用了opencv算法。使用的opencv也是借鉴一篇网上的博客。
解决第二个问题,是实用Tesseract工具针对我要识别的验证码进行独立的训练,而不是使用原始的训练数据进行识别,这样子可以明显的提升识别率。
源码
// 这里是调用的核心方法
public class ImageCleanPlanOpencv implements ImageClean{
Logger logger = LoggerFactory.getLogger(ImageCleanPlanOpencv.class);
public BufferedImage clean(BufferedImage oriBufferedImage) {
try {
BufferedImage cleanedBufferedImage = null;
//这里可以看到去燥的方法反复调用了几次,是为了得更好的去干扰线结果,这里可以根据自己的验证码情况来编写调用的次数,必须是偶数次,因为opencv的api会进行图像反色
cleanedBufferedImage = cleanL