web爬虫讲解—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

最新推荐文章于 2023-12-22 21:42:43 发布

程序员老K

最新推荐文章于 2023-12-22 21:42:43 发布

阅读量549

点赞数

文章标签： web爬虫 Python 爬虫网络爬虫编程语言

本文链接：https://blog.csdn.net/KK12345677/article/details/99441678

版权

本文详细介绍了如何使用Scrapy框架进行模拟浏览器登录，包括通过start_requests()方法启动请求，利用Request()和FormRequest.from_response()进行GET和POST操作，以及管理cookie。在登录过程中，通过meta参数控制cookie的使用。此外，还讲解了如何在Scrapy中获取请求和响应的Cookies，以便访问登录后的内容。

摘要由CSDN通过智能技术生成

模拟浏览器登录

start_requests()方法，可以返回一个请求给爬虫的起始网站，这个返回的请求相当于start_urls，start_requests()返回的请求会替代start_urls里的请求

Request()get请求，可以设置，url、cookie、回调函数

FormRequest.from_response()表单post提交，第一个必须参数，上一次响应cookie的response对象，其他参数，cookie、url、表单内容等

yield Request()可以将一个新的请求返回给爬虫执行

在发送请求时cookie的操作，
meta={‘cookiejar’:1}表示开启cookie记录，首次请求时写在Request()里
meta={‘cookiejar’:response.meta[‘cookiejar’]}表示使用上一次response的cookie，写在FormRequest.from_response()里post授权
meta={‘cookiejar’:True}表示使用授权后的cookie访问需要登录查看的页面

获取Scrapy框架Cookies

请求Cookie
Cookie = response.request.headers.getlist(‘Cookie’)
print(Cookie)

响应Cookie
Cookie2 = response.headers.getlist(‘Set-Cookie’)
print(Cookie2)

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun，784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容
# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest

class PachSpider(scrapy.Spider):                            #定义爬虫类，必须继承scrapy.Spider
    name = 'pach'                                           #设置爬虫名称
    allowed_domains = ['edu.iqianyue.com']                  #爬取域名
    # start_urls = ['http://edu.iqianyue.com/index_user_login.html']     #爬取网址,只适于不需要登录的请求，因为没法设置cookie等信息

    header = {'User-