用HttpClient实现网络爬虫

最新推荐文章于 2023-10-07 10:09:56 发布

cchengone

最新推荐文章于 2023-10-07 10:09:56 发布

阅读量378

点赞数

分类专栏：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cchengone/article/details/52054138

版权

网络爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

上一篇爬虫之jsoup入门指南中，已经能够非常便捷的实现网络爬虫

但是，在那之前，尝试了一下用HttpClient实现网络爬虫

在此记录一下

HttpClient client = new HttpClient();

GetMethod get = new GetMethod("url");// 传入url，创建一个get请求,方法体内部应该就是初始化http

// 协议吧，具体的没去看源码

int status = client.excuteMethod(get);

if (status = HttpStatus.SC_OK) {

//请求成功

String html = get.getResponseBodyAsString();// 此时已经获取到页面的内容

String[] rowContents = html.split("\n");// 用换行符将页面截断，方便解析

// 解析的方式可以自己想，由于前段时间第一次接触爬虫，所以处理方式有点二。。。

for (String rowContent : rowContents) {

if (rowContent.contains("http://")) {// 当前行包含http链接的话，就打印出来

System.out.println(rowContent);

}

}

// 也可以将当前请求的页面存起来，慢慢分析，想一个好的解析办法

FileWriter write = new FileWriter("../../page.html");

write.writer(html, 0, html.length());

writer.flush();

writer.close();

return;

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。