抓取网页登录问题解决Code(非验证码)

public static String login(String loginUrl,String dataUrl,String userName,String Password) {
		

		HttpClient httpClient = new HttpClient();

		// 模拟登陆,按实际服务器端要求选用 Post 或 Get 请求方式
		PostMethod postMethod = new PostMethod(loginUrl);

		// 设置登陆时要求的信息,一般就用户名和密码,验证码自己处理了
		NameValuePair[] data = { new NameValuePair("username", "fangbaobin"),
				new NameValuePair("password", "13130701515"),
				new NameValuePair("code", "anyany") };
		postMethod.setRequestBody(data);

		try {
			// 设置 HttpClient 接收 Cookie,用与浏览器一样的策略
			httpClient.getParams().setCookiePolicy(
					CookiePolicy.BROWSER_COMPATIBILITY);
			httpClient.executeMethod(postMethod);

			// 获得登陆后的 Cookie
			Cookie[] cookies = httpClient.getState().getCookies();
			String tmpcookies = "";
			for (Cookie c : cookies) {
				tmpcookies += c.toString() + ";";
			}

			// 进行登陆后的操作
			GetMethod getMethod = new GetMethod(dataUrl);

			// 每次访问需授权的网址时需带上前面的 cookie 作为通行证
			getMethod.setRequestHeader("cookie", tmpcookies);

			httpClient.executeMethod(getMethod);

			// 打印出返回数据,检验一下是否成功
			text = getMethod.getResponseBodyAsString();
			System.out.println(text);

		} catch (Exception e) {
			e.printStackTrace();
		}
		return text;
	}




上面的代码只能登录一次获取一次,不能实现登录一次之后,可以登录多个页面,那么这个问题如何解决呢? 那就是将cookie持久化.

如果不懂cookie,请Google吧..

持久化分很多种,我觉得根据自己喜欢怎么写就怎么写,例如,将cookie存贮在集合里,那么用时就拿,推荐用map,这样可以区分多个cookie
接下来给大家看一个最简单的持久化过程,相信大家对此就会很了解了..




public static void getLoginHtmlCodes(Queue queue) {
		// 登陆 Url
		String loginUrl = "http://www.ti.com.cn/footer_myti";

		// 需登陆后访问的 Url
//		 String dataUrl = "http://www.deyisupport.com/question_answer/f/24/t/1125.aspx";

		HttpClient httpClient = new HttpClient();

		// 模拟登陆,按实际服务器端要求选用 Post 或 Get 请求方式
		PostMethod postMethod = new PostMethod(loginUrl);

		// 设置登陆时要求的信息,一般就用户名和密码,验证码自己处理了
		NameValuePair[] data = { new NameValuePair("username", "binbin789@vip.qq.com"),
				new NameValuePair("password", "13130701515"),
				new NameValuePair("code", "anyany") };
		postMethod.setRequestBody(data);

		try {
			// 设置 HttpClient 接收 Cookie,用与浏览器一样的策略
			httpClient.getParams().setCookiePolicy(
					CookiePolicy.BROWSER_COMPATIBILITY);
			httpClient.executeMethod(postMethod);

			// 获得登陆后的 Cookie
			Cookie[] cookies = httpClient.getState().getCookies();
			String tmpcookies = "";
			for (Cookie c : cookies) {
				tmpcookies += c.toString() + ";";
			}

			
			String internalPage = "";
			while((internalPage = (String) queue.poll()) != null){
				// 进行登陆后的操作
				GetMethod getMethod = new GetMethod(internalPage);
	
				// 每次访问需授权的网址时需带上前面的 cookie 作为通行证
				getMethod.setRequestHeader("cookie", tmpcookies);
	
				// 你还可以通过 PostMethod/GetMethod 设置更多的请求后数据
				// 例如,referer 从哪里来的,UA 像搜索引擎都会表名自己是谁,无良搜索引擎除外
				// postMethod.setRequestHeader("Referer", "http://unmi.cc");
				// postMethod.setRequestHeader("User-Agent", "Unmi Spot");
	
				httpClient.executeMethod(getMethod);
	
				// 打印出返回数据,检验一下是否成功
				articleCode = getMethod.getResponseBodyAsString();
				
				System.err.println("当前文章有内部分页,正在遍历每个文章内部页面,处理文章字段获取,处理的文章内部分页Url是  :    "+internalPage);
			}
		} catch (Exception e) {
			e.printStackTrace();
			System.out.println("exception from FromCookiesGetHtmlCode (2)");
		}
	}



所用到的包:


import org.apache.commons.httpclient.Cookie;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.NameValuePair;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值