网页爬虫-通过已登录后的cookie,模拟登陆状态,保持会话进行后续操作

刚开始的时候打算使用java程序直接登陆网站在进行后续操作,后来发现有些网站的重定向太多不好操作,

所以改用已登录的cookie 来保持会话,

使用方式很简单,只需要在浏览器上登录你要操作的网站,然后获取cookie值,将cookie放到程序里就实现了保存会话的功能了,

1、添加maven 依赖


		<dependency>
			<groupId>org.apache.httpcomponents</groupId>
			<artifactId>httpclient</artifactId>
			<version>4.1.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.httpcomponents</groupId>
			<artifactId>httpclient-cache</artifactId>
			<version>4.1.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.httpcomponents</groupId>
			<artifactId>httpmime</artifactId>
			<version>4.1.2</version>
		</dependency>

2、登录网站,然后输入账号密码登录,按下F12功能键(或者在网页空白处右击->检查),

然后会弹出浏览器的调试页面-->  网络  -->  消息头  -->  下面的cookie一栏就是我们要的值了,先把它复制

3、上代码,header添加刚才复制的cookie值

package com.html;

import java.util.HashMap;
import java.util.Map;

import org.apache.http.Header;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.message.BasicHeader;
import org.apache.http.util.EntityUtils;

public class HtmlRequest {

	public static void main(String[] args) {

		//需要爬数据的网页url
		String url = "http://www.baidu.com";

		Map<String, String> header = new HashMap<String, String>();
		//将浏览器的cookie复制到这里
		header.put("Cookie", "Hm_lvt_9b04b6953ffb9872983f02eee2929d23=1536065531; Hm_lpvt_9b04b6953ffb9872983f02eee2929d23=1536066013; PHPSESSID=eemc0vbbmbr57d6s9rhvh6rav7; DedeUserID=6745; DedeUserID__ckMd5=ac9f8bd4bd2227be; DedeLoginTime=1536068126; DedeLoginTime__ckMd5=81e100997d01fca8");
		System.out.println(httpGet(url, null, header));
	}

	/**
	 * 发送 get 请求
	 * 
	 * @param url
	 * @param encode
	 * @param headers
	 * @return
	 */
	public static String httpGet(String url, String encode, Map<String, String> headers) {
		if (encode == null) {
			encode = "utf-8";
		}
		String content = null;
		DefaultHttpClient httpclient = new DefaultHttpClient();
		HttpGet httpGet = new HttpGet(url);

		// 设置 header
		Header headerss[] = buildHeader(headers);
		if (headerss != null && headerss.length > 0) {
			httpGet.setHeaders(headerss);
		}
		HttpResponse http_response;
		try {
			http_response = httpclient.execute(httpGet);
			HttpEntity entity = http_response.getEntity();
			content = EntityUtils.toString(entity, encode);
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			//断开连接
//			httpGet.releaseConnection();
		}
		return content;
	}

	/**
	 * 组装请求头
	 * 
	 * @param params
	 * @return
	 */
	public static Header[] buildHeader(Map<String, String> params) {
		Header[] headers = null;
		if (params != null && params.size() > 0) {
			headers = new BasicHeader[params.size()];
			int i = 0;
			for (Map.Entry<String, String> entry : params.entrySet()) {
				headers[i] = new BasicHeader(entry.getKey(), entry.getValue());
				i++;
			}
		}
		return headers;
	}

}

4、然后直接运行main方法,打印出已登录网站的html页面数据,

 

总结:使用java实现自动登录并且进行后续操作的功能目前还在研究中,一天进步一点点,rmb在向你招手,

宣传下个人网站:www.huashuku.top

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 爬虫cookie登陆和表单登陆selenium模拟登陆,两者之间的区别在于,cookie登陆是在爬虫中直接使用cookie来完成登录,而selenium模拟登录则需要自动化测试工具selenium,来模拟用户的浏览器操作,完成登录操作。 ### 回答2: 爬虫中的cookie登陆和表单登陆是两种不同的方式,而selenium模拟登陆则是使用selenium这个自动化测试工具来进行模拟登陆cookie登陆是指通过获取并使用网站cookie模拟用户登陆状态。当用户在网站进行登陆后,网站会返回一些cookie信息,包括用户的登陆状态等。爬虫程序可以通过获取并使用这些cookie模拟用户登陆状态,从而可以访问需要登陆才能访问的页面或执行一些需要登陆状态才能执行的操作。 表单登陆是指在登陆页面上填写用户名和密码等登陆信息,并提交给服务器进行登陆验证的过程。爬虫程序可以通过模拟用户填写登陆信息,并发送POST请求给服务器,来模拟登陆过程。这种方式需要对登陆页面的HTML结构进行分析,找到对应的表单元素和提交地址等信息。 与cookie登陆和表单登陆相比,selenium模拟登陆更加灵活和方便。selenium是一个自动化测试工具,可以模拟用户在浏览器上的各种操作,包括点击、输入、提交等。使用selenium模拟登陆可以直接打开一个浏览器窗口,并在其中模拟用户的操作,包括填写表单信息和点击登陆按钮等。这种方式比较适合一些动态页面或者需要执行复杂操作登陆过程。 总的来说,cookie登陆、表单登陆和selenium模拟登陆都是实现爬虫登陆的方式,具体使用哪种方式取决于目标网站登陆方式和需求的灵活度。 ### 回答3: 爬虫中的cookie登录和使用Selenium模拟表单登录是两种常见的方式来实现自动登录功能。 首先,cookie登录是通过获取登录页面的cookie信息,然后将其发送到服务器的方式进行登录。这种方式适用于简单的登录场景,不需要填写复杂的表单字段,只需要加载cookie即可完成登录。其优点是简单快捷,无需加载整个页面和执行JavaScript代码,可以节省时间和资源。但是,cookie登录方式可能会存在安全风险,因为cookie是保存在浏览器中的敏感信息,如果恶意程序获取cookie信息,就可以伪装成登录状态。 而Selenium模拟表单登录则是通过自动化测试工具Selenium来操作浏览器,模拟用户填写表单字段、点击按钮等操作,完成登录过程。这种方式适用于需要填写复杂的表单字段,或者需要执行JavaScript代码才能完成登录的场景。通过Selenium,我们可以完全模拟用户的操作,比如填写用户名、密码,点击登录按钮等。其优点是灵活可控,可以应对各种复杂的登录场景,但是相对于cookie登录方式,Selenium模拟登录速度较慢,需要加载整个页面和执行JavaScript代码,消耗更多的时间和资源。 总的来说,cookie登录适用于简单的登录场景,速度快,但安全性较低;Selenium模拟表单登录适用于复杂的登录场景,灵活可控,但速度较慢。具体选择哪种方式取决于实际需求和安全考虑。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

java叶新东老师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值