跟我一步一步学爬虫---基础篇(一)

最近打算研究一下java爬虫是怎么玩的,查了一些资料然后自己实践。最近看的一本书是《自己动手写网络爬虫》。

需要下载与HttpClient相关的一些jar  http://download.csdn.net/detail/hjgzj/8478289

今天的是入门的第一步,抓取一个页面。

import java.io.IOException;
import java.net.MalformedURLException;

import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.GetMethod;

public class LieTu {
	
	public static void main(String[] args) {
		Test();
	}
	
	public static void Test() {
		try {
			
			HttpClient httpClient = new HttpClient();
			GetMethod getMethod = new GetMethod("http://www.lietu.com");
			int stateCode = httpClient.executeMethod(getMethod);
			System.out.println(stateCode);
			System.out.println(getMethod.getResponseBodyAsString());
			//释放
			getMethod.releaseConnection();
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

执行之后发现能打印出网页的代码(HTML代码),然后截取你想要的数据,或者保成文件。

1、我们可以通过getMethod里面的方法得到许多东西。

2、建议把getMethod.getResponseBodyAsString()换成getMethod.getResponseBodyAsStream()

3、“http://”不可省去

4、附一张状态码的处理方式图



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值