其实对于网页抓取的时候,我们会遇到很多问题,比如说js需要触发的问题,还有模拟提交什么的,
而网页响应请求其实就post跟get方式,从这个思路走,那还有什么问题是难的呢?
将需要解析的网页通过http解析抓包工具比如httpanalyzer进行分析,那么通过分析提交跟返回的信息,我们便可以知道在这次的请求中到底是做了哪些处理
做了哪些请求,每次请求提交的数据是什么,cookie是什么,还有每次返回的数据是什么,我们都可以查看到
具体的分析工具我们可以使用httpanalyzer结合Firefox+firebug进行分析处理
例子如下(涉及密码跟用户名已经取消):
我们使用httpanalyzer进行抓包分析:
通过分析网页获取信息的时候异步提交的js信息链接的接口是蓝色标示的位置
然后我们分析下他提交的数据:
而他返回的信息如下:
代码如下:
package http.demo;
importorg.apache.commons.httpclient.Cookie;
importorg.apache.commons.httpclient.HttpClient;
importorg.apache.commons.httpclient.cookie.CookiePolicy;
importorg.apache.commons.httpclient.NameValuePair;
importorg.apache.commons.httpclient.methods.GetMethod;
importorg.apache.commons.httpclient.methods.PostMethod;
public class TestWrapperPrice {
publicstatic void main(String[] args){
HttpClienthttpClient = new HttpClient();
login(httpClient);
}
publicstatic void login(HttpClient httpClient){
StringloginUrl="http://air.jinri.net/cgi/UserLogonHandler.ashx?method=UserLogin&from=i8bdxb8h";
StringdataUrl ="http://air.jinri.net/cgi/Order/OrderManager.ashx?method=MappingCommonPolicy";
StringPassword = "123456" ;
PostMethodpostMethod = new PostMethod(loginUrl);
NameValuePair[] data = { newNameValuePair("LoginName", "123456"),
newNameValuePair("Password", "123456") };
postMethod.setRequestBody(data);
try {
// 设置 HttpClient 接收 Cookie,用与浏览器一样的策略
httpClient.getParams().setCookiePolicy(
CookiePolicy.BROWSER_COMPATIBILITY);
httpClient.executeMethod(postMethod);
// 获得登陆后的 Cookie
Cookie[] cookies = httpClient.getState().getCookies();
StringBuffer tmpcookies = new StringBuffer();
for (Cookie c : cookies) {
System.out.println("***********cccccccccccccc*********"+c);
tmpcookies.append(c.toString()+ ";");
}
// 进行登陆后的操作1581,1602,1603,1610,1609,1608,1607,1606,1605,1620,1619,1617,1616,1622,1626,1642,1648,1647,1657
PostMethod priceUrl = new PostMethod(dataUrl);
NameValuePair[] data1 = { new NameValuePair("PNRInfo", "1%0A9.SSR%20DOCS%20CA%"),
new NameValuePair("FlightList","[{'FID:0}]") ,
newNameValuePair("PassengerList", "[{'Oll}]") };
priceUrl.setRequestBody(data1);
// 每次访问需授权的网址时需带上前面的 cookie 作为通行证
priceUrl.setRequestHeader("cookie",tmpcookies.toString());
// 你还可以通过 PostMethod/GetMethod 设置更多的请求后数据
// 例如,referer 从哪里来的,UA 像搜索引擎都会表名自己是谁,无良搜索引擎除外
priceUrl.setRequestHeader("Referer","http://www.cc");
priceUrl.setRequestHeader("User-Agent", "wwwSpot");
httpClient.executeMethod(priceUrl);
// 打印出返回数据,检验一下是否成功
String text = priceUrl.getResponseBodyAsString();
System.out.println("************************:priceINfo:"+text);
} catch (Exception e) {
e.printStackTrace();
}
}
publicstatic void fetchPrice(){
}
}
那么程序运行后:
正是我们查看分析工具出来的结果