但是,在那之前,尝试了一下用HttpClient实现网络爬虫
在此记录一下
HttpClient client = new HttpClient();
GetMethod get = new GetMethod("url");// 传入url,创建一个get请求,方法体内部应该就是初始化http
// 协议吧,具体的没去看源码
int status = client.excuteMethod(get);
if (status = HttpStatus.SC_OK) {
//请求成功
String html = get.getResponseBodyAsString();// 此时已经获取到页面的内容
String[] rowContents = html.split("\n");// 用换行符将页面截断,方便解析
// 解析的方式可以自己想,由于前段时间第一次接触爬虫,所以处理方式有点二。。。
for (String rowContent : rowContents) {
if (rowContent.contains("http://")) {// 当前行包含http链接的话,就打印出来
System.out.println(rowContent);
}
}
// 也可以将当前请求的页面存起来,慢慢分析,想一个好的解析办法
FileWriter write = new FileWriter("../../page.html");
write.writer(html, 0, html.length());
writer.flush();
writer.close();
return;
}