Java爬虫登陆校园网

Java爬虫登陆校园网

  • 分享一次我的Java爬虫经历,在这一次爬虫过程中学到很多,拿出来和大家分享
  • 阅读本文的前置学习条件:
    • Java基本语法
    • Maven
    • Http协议有一定的了解(尤其是POST GET请求)
    • HTML的基本结构逻辑
    • 浏览器的开发者工具
  • 本文大概阅读时间 : 10 min ~ 15 min

1.准备工作

首先我们使用Java的IDEA集成开发环境,并使用一个Maven项目作为项目的包管理器。

其次需要导入几个Jar包,这次爬虫需要的是httpclient,commons-io,tess4j

因为如果要对数据进行处理,我还添加以下Jar包:junit,fastjson,jsoup

  • httpclient : HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。

    Maven依赖:

    <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
            <dependency>
                <groupId>org.apache.httpcomponents</groupId>
                <artifactId>httpclient</artifactId>
                <version>4.5.10</version>
            </dependency>
    
  • commons-io : Apache的一些工具集,在我们文件IO上用得到

    <dependency>
                <groupId>commons-io</groupId>
                <artifactId>commons-io</artifactId>
                <version>2.5</version>
    </dependency>
    
  • tess4j :用来做ORC光学识别,用来应对一些简单的验证码

    <!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
            <dependency>
                <groupId>net.sourceforge.tess4j</groupId>
                <artifactId>tess4j</artifactId>
                <version>4.4.1</version>
            </dependency>
    
  • junit : JUnit是一个Java语言的单元测试框架。用来做测试,可以不添加到项目当中。

    <!-- https://mvnrepository.com/artifact/junit/junit -->
            <dependency>
                <groupId>junit</groupId>
                <artifactId>junit</artifactId>
                <version>4.12</version>
            </dependency>
    
  • fastjson : 阿里开发的最快的json处理工具,在对数据进行实体化,存入数据库用到。

    <dependency>
                <groupId>com.alibaba</groupId>
                <artifactId>fastjson</artifactId>
                <version>1.2.62</version>
    </dependency>
    
  • Jsoup : 是一款Java的HTML解析器,主要用来对HTML解析。本篇不会用得到,读者酌情添加(迟早得用是不是哈哈)

    <dependency>
                <groupId>org.jsoup</groupId>
                <artifactId>jsoup</artifactId>
                
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值