利用Tess4J进行验证码识别

前言

最近爬虫兴起,为了避免被爬,很多网站会加入随机图像验证码来设下防线,这时候就需要我们进行图像识别再进行登录操作了。另外,项目中也可能多多少少的用到图像识别功能。所以,今天我们来讲解一下Java的图像识别。

正文

我在网上搜了一下,Java的图像识别开源免费的就Tess4J做得还不错。
① 首先,我们直接引入maven依赖:

        <!--图像识别tess4j-->
        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>4.5.1</version>
        </dependency>

此时,如果是刚配maven的小伙伴可能会报:Dependency 'net.sourceforge.tess4j:tess4j:4.5.1' not found
这时候我们就要看一下是不是你的maven库中加载不了这个包了。国内的话,有一个比较好的解决办法:就是在maven的setting.xml文件中加入阿里的镜像

	<mirror>
		<id>alimaven</id>
		<name>aliyun maven</name>
		<!-- https://maven.aliyun.com/repository/public/
  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
文件为压缩包,包括多个java识别图片文字的项目,国内网站上资料比较少,项目都整理出了测试类及说明,都包含着源代码及jar包、安装包、训练库。希望用得到的人少走弯路,资源都精心整理测试过,高分是必须的。 javaocr项目 纯java程序,国内网站几乎没有见到相关资料。 此项目提供了图形界面的测试类: net.sourceforge.javaocr.main.java javaocr2项目 与以上javaorc属同一项目的不同分支,纯java实现,以下3个测试类请参考。 个人对此项目感觉不错,虽然存在些问题,但是只要训练库好,英文和数字识别率很高。 我用此项目把某网站的数字验证码都截了图做成了训练库,识别率95%以上,用browserTest简单实现了程序自动登录与各种操作功能。 测试类: TestDemo.java MyDemo.java MyDemo2.java Longan-master项目 此项目也是纯java实现,识别英文和数字效果还不错,国内网站几乎没有任何相关资料。 测试类: com.zarkonnen.longan.Main 使用开发工具,请设置程序输入参数为:-o c:/111.txt c:/entest.png 代表输出文件和识别图片 Java_imagetotext项目 安装tesseract-ocr-setup-3.02.02.exe文件,通过java调用tesseract.exe文件识别图片,输出识别结果 测试类: com.chillyfacts.com.my_main.java 根据实际情况修改输入图片、输出文件名、tesseract.exe文件所在路径 Tess4J-3.4.7项目 知名度最大的java识别程序了。 我的环境是windows7 64位 jdk1.8 64位 各种折腾,痛苦的尝试了各版本,基本都是报模块加载失败,安装上vc_redist.x64_2015.exe后执行成功,但是在xp32位还是没有成功。 测试类: TesseractExample.java 测试英文识别 ChOcr.java 测试中文识别 tesseract3.03项目 测试类: de.vorb.tesseract.example.BasicExample 需要加载libtesseract303.dll 运行后一直报异常,没有搞定,也不打算深究了,遗憾!有人成功了,请分享为谢。
在使用Tess4J进行OCR识别时,可以设置识别参数以达到更好的识别效果。具体设置方法如下: 1. 创建Tesseract对象,可以通过Tesseract.getInstance()方法创建默认的Tesseract对象,也可以通过Tesseract构造函数传入参数来设置Tesseract的语言、OCR引擎等参数。 2. 通过setDatapath()方法设置tessdata目录的路径,该目录包含Tesseract的语言数据和配置文件。 3. 通过setLanguage()方法设置识别语言,可以同时设置多个语言,例如“chi_sim+eng”。 4. 通过setParameter()方法设置其他参数,常见的参数包括: - tessedit_char_whitelist:限定识别字符集,例如“0123456789”表示只识别数字; - tessedit_char_blacklist:忽略识别字符集,例如“$%&*”表示不识别这些字符; - tessedit_pageseg_mode:设置分页模式,例如PSM_AUTO、PSM_SINGLE_BLOCK等; - tessedit_ocr_engine_mode:设置OCR引擎模式,例如OEM_TESSERACT_ONLY、OEM_LSTM_ONLY等。 下面是一个示例代码,展示了如何设置Tess4J的识别参数: ``` Tesseract tesseract = new Tesseract(); tesseract.setDatapath("tessdata"); tesseract.setLanguage("chi_sim+eng"); tesseract.setParameter("tessedit_char_whitelist", "0123456789"); tesseract.setParameter("tessedit_pageseg_mode", "PSM_AUTO"); tesseract.setParameter("tessedit_ocr_engine_mode", "OEM_TESSERACT_ONLY"); ``` 以上代码将设置Tesseract的语言为中文和英文,限定只识别数字字符,自动分页,使用Tesseract引擎进行OCR识别。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值