java HttpClient 爬虫

最近在做收索引擎,需要对网页进行爬虫,课程建议使用python写爬虫,但是因为没学过python,所以尝试使用java来写爬虫。为了高效的爬取网页,使用HttpClient爬取网页,下面就来展示怎样使用HttpClient进行爬虫。

一、HttpClient
HttpClient 是 Apache 下的一个开源项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。下载地址:http://hc.apache.org/downloads.cgi,
这里下载4.53.zip版本,可以通过自己的系统下载不同压缩包,一般windows下载zip包,linux下载tar.gz包。完成下载后解压。第三方jar包在lib文件夹下可以根据自己的需要导入相应的jar包,如果担心报错可以全部导入。

二、爬取网页过程
使用 HttpClient 需要以下 6 个步骤:
1. 创建 HttpClient 的实例
2. 创建某种连接方法的实例,选择get或post请求
3. 确定是否有参数
4. 执行请求,并获得 response响应,然后获得HttpEntity对象
5. 释放连接。无论执行方法是否成功,都必须释放连接
6. 对得到后的内容进行处理
下面对这6个步骤详细说明。
1. 创建 HttpClient 的实例
   	   //1.创建httpclient对象
		CloseableHttpClient httpclient=HttpClients.createDefault();
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值