Java实现网络爬虫
HttpClient
爬虫介绍
爬虫的抓取环节
使用HttpClient发送get请求
使用HttpClient发送post请求
HttpClient连接池
HttpClient抓取https协议页面
HttpClient
爬虫介绍
一、什么是爬虫
爬虫是一段程序,抓取互联网上的数据,保存到本地。
抓取过程:
使用程序模拟浏览器
向服务器发送请求。
服务器响应html
把页面中的有用的数据解析出来。
解析页面中的链接地址。
把链接地址添加到url队列中。
爬虫从url队列中取url,返回2的操作。
爬虫的抓取环节
二、爬虫的抓取环节
抓取页面。
可以使用java api中提供的URLConnection类发送请求。
推荐使用工具包HttpClient。是apache旗下的一个开源项目。可以模拟浏览器。
对页面进行解析。
使用Jsoup工具包。
可以像使用jQuery一样解析html。
使用HttpClient发送get请求
步骤:
1)创建一个HttpClient对象,使用CloseableHttpClient,使用HttpClients工具类创建。
2)创建一个HttpGet对象,get对象封装请求的url
3)使用HttpClient执行请求
4)接收服务端响应的内容。
响应的内容包含响应头
包含响应的内容(html)
5)关闭连接
一、引入依赖
org.apache.httpcomponentsgroupId>
httpclientartifactId>
4.5.3version>
dependency>
junitgroupId>
junitartifactId>
4.12version>
dependency>
org.slf4jgroupId>
slf4j-log4j12artifactId>
1.7.25version>
dependency>
dependencies>
二、使用HttpClient发送get请求
public class HttpClientTest {
@Test
public void