scrapy基础知识之发送POST请求与使用 FormRequest.from_response() 方法模拟登陆

最新推荐文章于 2025-03-03 10:07:25 发布

MXuDong

最新推荐文章于 2025-03-03 10:07:25 发布

阅读量1.1w

点赞数 1

分类专栏：小结文章标签： Python scrapy FormRequest post请求

本文链接：https://blog.csdn.net/qq_33472765/article/details/80958820

版权

小结专栏收录该内容

55 篇文章

订阅专栏

Scrapy模拟表单和Ajax发送POST请求

scrapy.FormRequest

普通请求使用scrapy.Request类就可以实现，但是遇到模拟表单或Ajax提交post请求的时候，Request类就不如子类 FormRequest类方便了，因为他自带 formdata ，专门用来设置表单字段数据，默认method也是POST。

def start_requests(self):
    form_data = {'f1':'1', 'f2':'100'}  # 表单数据，字典格式，注意数字也要用引号引起来，否则报错。
    yield scrapy.FormRequest(url, formdata=form_data) # 还可以通过callback修改回调函数等

参考:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/request-response.html?highlight=post#formrequest-objects
https://stackoverflow.com/questions/39012902/scrapy-making-request-with-post-method

scrapy.http.FormRequest

还有其他方法，如scrapy.http.FormRequest，但是感觉不如以上方法方便：

return [scrapy.http.FormRequest(
    self.myurl, 
    formdata={'f1':'123','f2':'456'},
    callback=self.parse)]

eg:

 from scrapy.item import Item, Field
from scrapy.http import FormRequest
from scrapy.spider import BaseSpider


class DeltaItem(Item):
    title = Field()
    link = Field()
    desc = Field()


class DmozSpider(BaseSpider):
    name = "delta"
    allowed_domains = ["delta.com"]
    start_urls = ["http://www.delta.com"]

    def parse(self, response):
        yield FormRequest.from_response(response,
                                        formname='flightSearchForm',
                                        formdata={'departureCity[0]': 'JFK',
                                                  'destinationCity[0]': 'SFO',
                                                  'departureDate[0]': '07.20.2013',
                                                  'departureDate[1]': '07.28.2013'},
                                        callback=self.parse1)

    def parse1(self, response):
        print response.status

scrapy基础知识之发送POST请求：

可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。
如果希望程序执行一开始就发送POST请求，可以重写Spider类的start_requests(self) 方法，并且不再调用start_urls里的url。

class mySpider(scrapy.Spider):
    # start_urls = ["http://www.example.com/"]

    def start_requests(self):
        url = 'http://www.renren.com/PLogin.do'

        # FormRequest 是Scrapy发送POST请求的方法
        yield scrapy.FormRequest(
            url = url,
            formdata = {"email" : "xxx", "password" : "xxxxx"},
            callback = self.parse_page
        )
    def parse_page(self, response):
        # do something

scrapy基础知识之使用FormRequest.from_response()方法模拟用户登录：

通常网站通过实现对某些表单字段（如数据或是登录界面中的认证令牌等）的预填充

使用Scrapy抓取网页时，如果想要预填充或重写像用户名、用户密码这些表单字段，可以使用 FormRequest.from_response() 方法实现。

下面是使用这种方法的爬虫例子:

import scrapy

class LoginSpider(scrapy.Spider):
    name = 'example.com'
    start_urls = ['http://www.example.com/users/login.php']

    def parse(self, response):
        return scrapy.FormRequest.from_response(
            response,
            formdata={'username': 'john', 'password': 'secret'},
            callback=self.after_login
        )

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=log.ERROR)
            return