https爬虫java证书_Java实现网络爬虫:HttpClient抓取https协议页面

Java实现网络爬虫

HttpClient

爬虫介绍

爬虫的抓取环节

使用HttpClient发送get请求

使用HttpClient发送post请求

HttpClient连接池

HttpClient抓取https协议页面

HttpClient

爬虫介绍

一、什么是爬虫

爬虫是一段程序,抓取互联网上的数据,保存到本地。

抓取过程:

使用程序模拟浏览器

向服务器发送请求。

服务器响应html

把页面中的有用的数据解析出来。

解析页面中的链接地址。

把链接地址添加到url队列中。

爬虫从url队列中取url,返回2的操作。

爬虫的抓取环节

二、爬虫的抓取环节

抓取页面。

可以使用java api中提供的URLConnection类发送请求。

推荐使用工具包HttpClient。是apache旗下的一个开源项目。可以模拟浏览器。

对页面进行解析。

使用Jsoup工具包。

可以像使用jQuery一样解析html。

使用HttpClient发送get请求

步骤:

1)创建一个HttpClient对象,使用CloseableHttpClient,使用HttpClients工具类创建。

2)创建一个HttpGet对象,get对象封装请求的url

3)使用HttpClient执行请求

4)接收服务端响应的内容。

响应的内容包含响应头

包含响应的内容(html)

5)关闭连接

一、引入依赖

org.apache.httpcomponentsgroupId>

httpclientartifactId>

4.5.3version>

dependency>

junitgroupId>

junitartifactId>

4.12version>

dependency>

org.slf4jgroupId>

slf4j-log4j12artifactId>

1.7.25version>

dependency>

dependencies>

二、使用HttpClient发送get请求

public class HttpClientTest {

@Test

public void

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值