网络爬虫学习笔记———网页源码下载之get方法


请求网页的方式主体有两种,一种是get方法,一种是post方法。正如这两个单词明面上的意思,一个是单纯地从网页中获取源码,另一种需要传递正确的参数后才能返回正确的源码。如图所示,我们可以利用F12观察的方法来查看具体是哪种请求。

 

下面是post方法。

 

 

怎样通过程序去模拟这个过程呢,Apache给我们提供了一系列的方法。http://hc.apache.org/网址下提供了我们需要的主体的架包,网站上也包含了其他很有用的工具,可以根据需要选择使用。主体使用的架包为:

 

 

下面写一个简单get方法实现的请求。

 

import java.io.IOException;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

/******
 * 
 * @author luffy
 * @deprecated 简单的get请求方法
 */
public class Test {

	
	public static void main(String[] args){
		
		CloseableHttpClient httpClient=HttpClients.createDefault();//类似于浏览器核心的工具,是获取源码的主要工具
		
		HttpGet getmethod = new HttpGet("http://www.csdn.net/");//定义获取的GET方法
		
		HttpResponse httpresponse = null;
		
		try {
			
			
			httpresponse = httpClient.execute(getmethod);//开始获取源码,返回的结果除了源码外,还有其他一些信息
			
			
		} catch (ClientProtocolException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		HttpEntity entity = httpresponse.getEntity();//从结果中获取源码的实体
		
		
		String out = "";
		
		
		try {
			out = EntityUtils.toString(entity);//将源码实体转化为字符串
		} catch (ParseException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		
		System.out.print(out);
		
		
		
	}
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值