java HttpClient 爬虫

最新推荐文章于 2023-07-31 15:43:37 发布

vamesary

最新推荐文章于 2023-07-31 15:43:37 发布

阅读量1.2k

点赞数 1

分类专栏： java 网络应用 HttpClient 文章标签： java 爬虫 HttpClient

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vamesary/article/details/72573242

版权

最近在做收索引擎，需要对网页进行爬虫，课程建议使用python写爬虫，但是因为没学过python，所以尝试使用java来写爬虫。为了高效的爬取网页，使用HttpClient爬取网页，下面就来展示怎样使用HttpClient进行爬虫。

一、HttpClient

HttpClient 是 Apache 下的一个开源项目，用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。下载地址：http://hc.apache.org/downloads.cgi，

这里下载4.53.zip版本,可以通过自己的系统下载不同压缩包，一般windows下载zip包，linux下载tar.gz包。完成下载后解压。第三方jar包在lib文件夹下可以根据自己的需要导入相应的jar包，如果担心报错可以全部导入。

二、爬取网页过程

使用 HttpClient 需要以下 6 个步骤：

1. 创建 HttpClient 的实例

2. 创建某种连接方法的实例，选择get或post请求

3. 确定是否有参数

4. 执行请求，并获得 response响应，然后获得HttpEntity对象

5. 释放连接。无论执行方法是否成功，都必须释放连接

6. 对得到后的内容进行处理

下面对这6个步骤详细说明。

1. 创建 HttpClient 的实例

   	   //1.创建httpclient对象
		CloseableHttpClient httpclient=HttpClients.createDefault();

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
java HttpClient 爬虫

最近在做收索引擎，需要对网页进行爬虫，课程建议使用python写爬虫，但是因为没学过python，所以尝试使用java来写爬虫。为了高效的爬取网页，使用HttpClient爬取网页，下面就来展示怎样使用HttpClient进行爬虫。
复制链接

扫一扫

专栏目录

vamesary CSDN认证博客专家 CSDN认证企业博客

码龄7年

21: 原创

41万+: 周排名

157万+: 总排名

6万+: 访问

: 等级

684: 积分

16: 粉丝

24: 获赞

6: 评论

87: 收藏

私信

关注

热门文章

分类专栏

最新评论

ssh 连接腾讯云服务器（linux系统）
Chard Lee: 关于为什么会出现Permission denied (publickey,gssapi-keyex,gssapi-with-mic)，原因是腾讯云服务器默认好像是没有密码的，重新区服务器配置密码
ssh 连接腾讯云服务器（linux系统）
bh6635: 咦，我的评论去哪里了？
ssh 连接腾讯云服务器（linux系统）
bh6635: 之前我每次 ssh 登录都要加上参数 -i 指定密钥文件，不然就登录失败，非常麻烦。后来我把整个 ssh 目录删除了，重新生成了单个 ssh key，与服务器重新关联公钥后，终于可以不加参数 -i 登录了（当然第一遍登录时还是参照官方文档加了参数指定私钥文件）。我没搞明白这中间发生了什么，可能是因为之前我 ssh 目录下有多个密钥，也可能是因为我之前没有按照官方教程对私钥执行 chmod 400 设置访问权限。
ssh 连接腾讯云服务器（linux系统）
bh6635: 每次都要指定私钥的绝对路径，好麻烦，有没有办法省略这个步骤呢？
ssh 连接腾讯云服务器（linux系统）
xiaoF9: 用git for windows软件成功连到腾讯服务器上了，感谢作者

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。