Android与web服务器数据交互编程---3网络爬虫项目实现虚拟浏览器的jsp后台运行

原创 2015年07月06日 20:54:17

背景:原先的b/s设计中在一个jsp界面中实现多个复杂的工作流。。。为实现移动接口的调用保证工作流的正常web工程特别给提供了该虚拟浏览器的方案

原理:通过该方案实现虚拟浏览器后台执行jsp脚本,以达到我们要求

要求:

1、session保持,不然总会跳转到login界面

2、jsp脚本必须被执行,不能只是单纯的发起一个请求

先上

private String submitHandler(HttpServletRequest request,String msg,String sessionid,String pathjsp) throws IOException{
		 //虚拟浏览器 模拟提交jsp
		URL url = null;
		 //增加浏览器版本 去掉try catch
        WebClient client = new WebClient(BrowserVersion.INTERNET_EXPLORER_10);
         
		client.getOptions().setJavaScriptEnabled(true);
        client.getOptions().setCssEnabled(false);

        client.getOptions().setThrowExceptionOnFailingStatusCode(false);
        client.getOptions().setThrowExceptionOnScriptError(false);
        client.getOptions().setRedirectEnabled(true);
        
        
		url = new URL("http://localhost:"+ request.getServerPort()+pathjsp);
		
		System.out.println("sfq--url====" + url);
		//跳转登录查看cookie
		//HtmlPage page = client.getPage(url);
		WebRequest webRequest2 = new WebRequest(url, HttpMethod.POST);
			
	    List<NameValuePair> reqParam2 = new ArrayList<NameValuePair>();

		reqParam2.add(new NameValuePair("paramters", msg));
		System.out.println("sfq--url====msg:" + msg); 
		
		webRequest2.setAdditionalHeader("Cookie", "JSESSIONID="+sessionid);
		
		webRequest2.setRequestParameters(reqParam2);
		//client.getOptions().setThrowExceptionOnScriptError(true);
		HtmlPage page2 = (HtmlPage) client.getPage(webRequest2);

		System.out.println("sfq--pageasText====" + page2.asText());
		WebResponse webResponse = page2.getWebResponse();
	    int status21 = webResponse.getStatusCode();
	    System.out.println("sfq--status21====" + status21);
	    if(status21==200){
	    	return "1";
	    }else{
	    	return status21+"";
	    }
		
	}
几点说明:

1、因为项目中的jsp原来只是为web服务的,改装成移动端交互使用难免各种报错,只要不影响流程,我选择忽略他们。所以去掉了其中的try catch异常捕获。(捕获真的很碍事。。)、

2、session保持问题纠结了很久,尝试 网上的方法时大概人品出现了严重的问题,不好使(以下方法真的不好使。。。。)

private void setCookies(WebClient webClient,String domain, Map<String, String> cookies) {
	if (cookies != null && cookies.size() > 0) {
		webClient.getCookieManager().setCookiesEnabled(true);// enable
																// cookies
		for (Entry<String, String> c : cookies.entrySet()) {
			Cookie cookie = new Cookie(domain, c.getKey(), c.getValue());
			webClient.getCookieManager().addCookie(cookie);
		}
	}
}

3、在我们领导的指点下使用requet的方法成功

webRequest2.setAdditionalHeader("Cookie", "JSESSIONID="+sessionid);
当然,你也可以在请求你要的目的jsp之前先做一步模拟登录,从而获得了cookie......当然这就影响执行效率了

4、还不容易在本地测试通过了,搬移到外网服务器以后直接连接超时,最终通过更换url的ip地址为locslhost,问题解决


补充下:

localhoost  、 127.0.0.1 和本地ip的区别(网络基础太差了。。。。。。。)

no1:
localhost也叫local ,正确的解释是:本地服务器
127.0.0.1在windows等系统的正确解释是:本机地址(本机服务器)
他们的解析通过本机的host文件,windows自动将localhost解析为127.0.0.1
no2:
localhot(local)是不经网卡传输!这点很重要,它不受网络防火墙和网卡相关的的限制。
127.0.0.1是通过网卡传输,依赖网卡,并受到网络防火墙和网卡相关的限制。
本机IP 也是通过网卡传输的,依赖网卡,并受到网络防火墙和网卡相关的限制。
但是本机IP与127.0.0.1的区别是:
127.0.0.1 只能通过本机访问
本机IP 通过本机访问也能通过外部访问
 
一般设置程序时本地服务用localhost是最好的,localhost不会解析成ip,也不会占用网卡、网络资源。

有时候用localhost可以,但用127.0.0.1就不可以的情况就是在于此。猜想localhost访问时,系统带的本机当前用户的权限去访问,而用ip的时候,等于本机是通过网络再去访问本机,用的到网络用户的权限。


总结下:

1、访问本地服务器无论从效率还是实用上来讲直接使用localhost肯定是上上之选,不受其他问题的干扰

2、在公司法人项目中无知的选择了本机ip,效率最低的选择,访问要经过外网、防火墙、不啦不啦在找到自己。。。



 更多参考资料;

1、hmlunit  http://shenbai.iteye.com/blog/1985844

2、http://blog.csdn.net/lu8000/article/details/10693091

3、http://shihlei.iteye.com/blog/2067707


4、 localho相关




版权声明:本文为博主原创文章,未经博主允许不得转载。

Android中网络编程以及与服务器上Web项目的基础交互

1、Android网络编程初识 2、Android实现HTML源码查看 3、Android实现网络图片查看 4、Android实现与服务器上JavaWeb项目交互1、Android网络编程初识...

网络爬虫项目开发日志(六): 基于余弦向量法的Web数据并行爬取

--前言-- 随着项目的不断进展,爬虫项目所需要爬取的数据种类越来越多,爬取的体量也越来越大,而且更新频率也更快,单机爬取机制肯定是不适用了,日前,偶然从学术领域得知了基于余弦向量法的多机并发爬取策...

Python3 大型网络爬虫实战 004 — scrapy 大型静态商城网站爬虫项目编写及数据写入数据库实战 — 实战:爬取淘宝

原博文链接:http://www.aobosir.com/blog/2016/12/26/python3-large-web-crawler-taobao-com-import-to-MySQL-da...

Android实战——jsoup实现网络爬虫,糗事百科项目的起步

Android实战——jsoup实现网络爬虫,爬糗事百科主界面 原创作者:http://blog.csdn.net/qq_30379689/article/details/55005796#b ...

Android实战——jsoup实现网络爬虫,糗事百科项目的起步

Android实战——jsoup实现网络爬虫,爬糗事百科主界面 本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用 结语 前言...

python 网络爬虫(一):世界上最简单的Web浏览器

在coursera上python课程,刚好看到以前也学过的python网络程序这一部分。 兴致所致,自由发挥一段socket程序,也算是一个小小的爬虫(很原始,没有任何数据处理)。 有兴趣学习...

python网络爬虫(二):世界上最简单的web浏览器

在coursera上python课程,刚好看到以前也学过的python网络程序这一部分。 上一篇文章是利用python的socket包来实现TCP/IP网络程序,本篇我们可以采用一个更成熟的包:...

[Android] - Jsoup实现网络爬虫,获取糗事百科数据

目录目录 前言 Jsoup配置 Jsoup使用前言本文是在看了鸿洋大神微信公众号里的文章后,结合自己的实践写下的一些心得,所以会有很多相同的地方,请别介意仅当做笔记使用。Jsoup的简介什么的就不介绍...

python3 网络爬虫(三)利用post请求获取网页的动态加载数据

环境:python3.4 win7 框架:scrapy上一篇讲了利用get请求获取王爷的动态加载数据,这一篇文章让我们来简单介绍一下如何用post请求来获取网页的动态加载数据,这一次我们面对的...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Android与web服务器数据交互编程---3网络爬虫项目实现虚拟浏览器的jsp后台运行
举报原因:
原因补充:

(最多只允许输入30个字)