Java爬虫登陆校园网
- 分享一次我的Java爬虫经历,在这一次爬虫过程中学到很多,拿出来和大家分享
- 阅读本文的前置学习条件:
- Java基本语法
- Maven
- Http协议有一定的了解(尤其是POST GET请求)
- HTML的基本结构逻辑
- 浏览器的开发者工具
- 本文大概阅读时间 : 10 min ~ 15 min
1.准备工作
首先我们使用Java的IDEA集成开发环境,并使用一个Maven项目作为项目的包管理器。
其次需要导入几个Jar包,这次爬虫需要的是httpclient,commons-io,tess4j
因为如果要对数据进行处理,我还添加以下Jar包:junit,fastjson,jsoup
-
httpclient : HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。
Maven依赖:
<!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient --> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.10</version> </dependency>
-
commons-io : Apache的一些工具集,在我们文件IO上用得到
<dependency> <groupId>commons-io</groupId> <artifactId>commons-io</artifactId> <version>2.5</version> </dependency>
-
tess4j :用来做ORC光学识别,用来应对一些简单的验证码
<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j --> <dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.4.1</version> </dependency>
-
junit : JUnit是一个Java语言的单元测试框架。用来做测试,可以不添加到项目当中。
<!-- https://mvnrepository.com/artifact/junit/junit --> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency>
-
fastjson : 阿里开发的最快的json处理工具,在对数据进行实体化,存入数据库用到。
<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.62</version> </dependency>
-
Jsoup : 是一款Java的HTML解析器,主要用来对HTML解析。本篇不会用得到,读者酌情添加(迟早得用是不是哈哈)
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId>