最近打算研究一下java爬虫是怎么玩的,查了一些资料然后自己实践。最近看的一本书是《自己动手写网络爬虫》。
需要下载与HttpClient相关的一些jar http://download.csdn.net/detail/hjgzj/8478289
今天的是入门的第一步,抓取一个页面。
import java.io.IOException;
import java.net.MalformedURLException;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.GetMethod;
public class LieTu {
public static void main(String[] args) {
Test();
}
public static void Test() {
try {
HttpClient httpClient = new HttpClient();
GetMethod getMethod = new GetMethod("http://www.lietu.com");
int stateCode = httpClient.executeMethod(getMethod);
System.out.println(stateCode);
System.out.println(getMethod.getResponseBodyAsString());
//释放
getMethod.releaseConnection();
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
执行之后发现能打印出网页的代码(HTML代码),然后截取你想要的数据,或者保成文件。
1、我们可以通过getMethod里面的方法得到许多东西。
2、建议把getMethod.getResponseBodyAsString()换成getMethod.getResponseBodyAsStream()
3、“http://”不可省去
4、附一张状态码的处理方式图