scrapy中使用Fromquest

scrapy官方自带的访问方法Request,post的话是scrapy.FormRequest

import scrapy
import requests

class LogingitSpider(scrapy.Spider):
    name = 'logingit'
    allowed_domains = ['github.com']
    # 登陆界面的URL
    login_url = 'https://github.com/login'
    # POST表单数据的URL
    post_url = 'https://github.com/session'
    # 登陆后URL
    logined_url = 'https://github.com/settings/profile'

    def start_requests(self):
        """
        获取登陆页面源码
        """
        return [scrapy.Request(url=self.login_url,
                              callback=self.login,
                              headers=self.settings.get('DEFAULT_REQUEST_HEADERS'))]

    def login(self, response):
        """
        使用FromRequest模拟登陆Github
        """
        # 提取POST验证参数 authenticity_token
        authcode = response.xpath('//*[@id="login"]/form/input[2]/@value').extract_first()
        if authcode:
            self.logger.debug("Auth Token: %s" %authcode)
            post_data = {
                'commit': 'Sign in',
                'utf8': '✓',
                'authenticity_token': authcode,
                'login': self.settings.get('ACCOUNT'),
                'password': self.settings.get('PASSWORD')
            }
            return [scrapy.FormRequest(url=self.post_url,
                                      formdata=post_data,
                                      headers=self.settings.get('DEFAULT_REQUEST_HEADERS'),
                                      callback=self.check)]
        else:
            return [scrapy.Request(url=self.login_url, callback=self.login)]

    def check(self, response):
        """
        验证登陆是否成功
        """
        avatar = response.css('#user-links > li:nth-child(3) > details > summary > img::attr(src)').extract_first()
        if avatar:
            content = requests.get(url=avatar.split('?')[0]).content
            with open('./utils/acatar.jpg', 'wb') as f:
                f.write(content)
            print('Successfully Login!')
        pass


    def parse(self, response):
        pass

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值