跟我一步一步学爬虫---基础篇（一）

最新推荐文章于 2024-09-23 17:24:27 发布

我纯洁全身都纯洁

最新推荐文章于 2024-09-23 17:24:27 发布

阅读量1.1k

点赞数 1

分类专栏：跟我一步一步学爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/hjgzj/article/details/44099829

版权

跟我一步一步学爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近打算研究一下java爬虫是怎么玩的，查了一些资料然后自己实践。最近看的一本书是《自己动手写网络爬虫》。

需要下载与HttpClient相关的一些jar http://download.csdn.net/detail/hjgzj/8478289

今天的是入门的第一步，抓取一个页面。

import java.io.IOException;
import java.net.MalformedURLException;

import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.GetMethod;

public class LieTu {
	
	public static void main(String[] args) {
		Test();
	}
	
	public static void Test() {
		try {
			
			HttpClient httpClient = new HttpClient();
			GetMethod getMethod = new GetMethod("http://www.lietu.com");
			int stateCode = httpClient.executeMethod(getMethod);
			System.out.println(stateCode);
			System.out.println(getMethod.getResponseBodyAsString());
			//释放
			getMethod.releaseConnection();
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

执行之后发现能打印出网页的代码（HTML代码），然后截取你想要的数据，或者保成文件。

1、我们可以通过getMethod里面的方法得到许多东西。

2、建议把getMethod.getResponseBodyAsString()换成getMethod.getResponseBodyAsStream()

3、“http://”不可省去

4、附一张状态码的处理方式图