数据抓取中post与get方式的处理深入理解(不用给网页标签赋值也不用模拟提交js)

22 篇文章 0 订阅
5 篇文章 0 订阅

其实对于网页抓取的时候,我们会遇到很多问题,比如说js需要触发的问题,还有模拟提交什么的,

而网页响应请求其实就post跟get方式,从这个思路走,那还有什么问题是难的呢?

将需要解析的网页通过http解析抓包工具比如httpanalyzer进行分析,那么通过分析提交跟返回的信息,我们便可以知道在这次的请求中到底是做了哪些处理

做了哪些请求,每次请求提交的数据是什么,cookie是什么,还有每次返回的数据是什么,我们都可以查看到

具体的分析工具我们可以使用httpanalyzer结合Firefox+firebug进行分析处理

例子如下(涉及密码跟用户名已经取消):

我们使用httpanalyzer进行抓包分析:


通过分析网页获取信息的时候异步提交的js信息链接的接口是蓝色标示的位置

然后我们分析下他提交的数据:







而他返回的信息如下:




代码如下:



package http.demo;

importorg.apache.commons.httpclient.Cookie; 

importorg.apache.commons.httpclient.HttpClient; 

importorg.apache.commons.httpclient.cookie.CookiePolicy;

importorg.apache.commons.httpclient.NameValuePair; 

importorg.apache.commons.httpclient.methods.GetMethod; 

importorg.apache.commons.httpclient.methods.PostMethod; 

 

public class TestWrapperPrice {

         publicstatic void main(String[] args){

                   HttpClienthttpClient = new HttpClient();

                   login(httpClient);

                  

         }

        

         publicstatic void login(HttpClient httpClient){

                   StringloginUrl="http://air.jinri.net/cgi/UserLogonHandler.ashx?method=UserLogin&from=i8bdxb8h";

                   StringdataUrl ="http://air.jinri.net/cgi/Order/OrderManager.ashx?method=MappingCommonPolicy";

                   StringPassword = "123456" ;

                   PostMethodpostMethod = new PostMethod(loginUrl); 

                    NameValuePair[] data = { newNameValuePair("LoginName", "123456"), 

                         newNameValuePair("Password", "123456") }; 

             postMethod.setRequestBody(data);

            

             try { 

           // 设置 HttpClient 接收 Cookie,用与浏览器一样的策略 

           httpClient.getParams().setCookiePolicy( 

                   CookiePolicy.BROWSER_COMPATIBILITY); 

           httpClient.executeMethod(postMethod);

           // 获得登陆后的 Cookie 

           Cookie[] cookies = httpClient.getState().getCookies(); 

           StringBuffer tmpcookies = new StringBuffer(); 

           for (Cookie c : cookies) {

                    System.out.println("***********cccccccccccccc*********"+c);

                tmpcookies.append(c.toString()+ ";"); 

           }

        // 进行登陆后的操作1581,1602,1603,1610,1609,1608,1607,1606,1605,1620,1619,1617,1616,1622,1626,1642,1648,1647,1657 

           PostMethod priceUrl = new PostMethod(dataUrl); 

           NameValuePair[] data1 = { new NameValuePair("PNRInfo", "1%0A9.SSR%20DOCS%20CA%"), 

                         new NameValuePair("FlightList","[{'FID:0}]") ,

                         newNameValuePair("PassengerList", "[{'Oll}]") };

           

           priceUrl.setRequestBody(data1);

           

           // 每次访问需授权的网址时需带上前面的 cookie 作为通行证 

           priceUrl.setRequestHeader("cookie",tmpcookies.toString()); 

           // 你还可以通过 PostMethod/GetMethod 设置更多的请求后数据 

           // 例如,referer 从哪里来的,UA 像搜索引擎都会表名自己是谁,无良搜索引擎除外 

           priceUrl.setRequestHeader("Referer","http://www.cc"); 

           priceUrl.setRequestHeader("User-Agent", "wwwSpot"); 

           

           httpClient.executeMethod(priceUrl); 

           // 打印出返回数据,检验一下是否成功 

           String text = priceUrl.getResponseBodyAsString(); 

           System.out.println("************************:priceINfo:"+text); 

       } catch (Exception e) { 

           e.printStackTrace(); 

       } 

                  

         }

        

         publicstatic void fetchPrice(){

                  

         }

}


那么程序运行后:



正是我们查看分析工具出来的结果


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值