java--采用maven配置管理使用htmlunit，tess4j，opencv相结合抓取需要验证码的数据的网络爬虫

龙言寿

已于 2024-05-02 00:28:16 修改

阅读量236

点赞数 2

文章标签： java 爬虫 ocr opencv

于 2024-05-02 00:24:02 首次发布

本文链接：https://blog.csdn.net/atao724459193/article/details/138383213

版权

最近被公司优化，闲暇之际研究了下java的爬虫，恰好有个朋友需要帮忙，于是使用java语言采用maven配置管理，使用htmlunit，tess4j，opencv，相结合抓取了一个网站的数据。这个网站的数据是公开的，不过查询需要输入验证码，所以写了一个爬虫软件，下面简单讲述一下这个项目。
1.项目系统环境：
电脑系统：windows
java版本：open jdk 17
开发的ide：eclipse
项目模版：maven Project
2.maven的配置

在这里插入代码片
<dependency>
		    <groupId>org.htmlunit</groupId>
		    <artifactId>htmlunit</artifactId>
		    <version>4.1.0</version>
		</dependency>

		<dependency>
			<groupId>net.sourceforge.tess4j</groupId>
			<artifactId>tess4j</artifactId>
			<version>5.11.0</version>
		</dependency>
		<dependency>
			<groupId>org.openpnp</groupId>
			<artifactId>opencv</artifactId>
			<version>4.9.0-0</version>
		</dependency>
		<dependency>
			<groupId>org.json</groupId>
			<artifactId>json</artifactId>
			<version>20240303</version>
		</dependency>

3.项目的思路
3.1使用htmlunit解析网站的页面，和执行js，实例代码
在这里插入图片描述

3.2使用tess4j进行验证码识别

在这里插入图片描述

3.3为了提高对验证码的识别率， 用opencv对验证码图片进行灰度化处理

在这里插入图片描述

开发的过程主要工作是对html页面的分析，关于htmlunit，tess4j，opencv的使用方法请自行百度，有不懂的可以私信，不过希望大家不要使用爬虫技术进行违反法律的活动。

龙言寿

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
java--采用maven配置管理使用htmlunit，tess4j，opencv相结合抓取需要验证码的数据的网络爬虫

最近被公司优化，闲暇之际研究了下java的爬虫，恰好有个朋友需要帮忙，于是使用java语言采用maven配置管理，使用htmlunit，tess4j，opencv，相结合抓取了一个网站的数据。这个网站的数据是公开的，不过查询需要输入验证码，所以写了一个爬虫软件，下面简单讲述一下这个项目。开发的过程主要工作是对html页面的分析，关于htmlunit，tess4j，opencv的使用方法请自行百度，有不懂的可以私信。3.1使用htmlunit解析网站的页面，和执行js，实例代码。电脑系统：windows。
复制链接

扫一扫