python-scrapy模拟登陆网站--登陆青果教务管理系统（三）

最新推荐文章于 2020-09-15 09:40:20 发布

耿子666

最新推荐文章于 2020-09-15 09:40:20 发布

阅读量1.2w

点赞数 5

分类专栏： ④------Python------ python-scrapy 文章标签：登陆 scrapy 教务系统爬虫 python

本文为博主原创文章，未经博主允许不得转载。-QQ1164014750-微信公众号：耿子blog

本文链接：https://blog.csdn.net/qq_28817739/article/details/80152469

版权

④------Python------ 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

python-scrapy

8 篇文章 1 订阅

订阅专栏

前言：

第一篇，分析青果教务管理系统登陆模块，理清思路

第二篇，使用常规的python常用库 requests来实现模拟登陆

第三篇，使用scrapy来实现模拟登陆

目的在于了解模拟登陆网站的要点和方法，了解http请求的一些知识。

（1）scrapy模拟登陆

依然按照上一篇的思路，我们编写代码即可。这里我就不啰嗦了。就放下spider 的代码

# -*- coding: utf-8 -*-
from _mysql import result

import scrapy
import re
import random
import time
from PIL import Image
from md5tools import md5_encrypt


class AynueduSpider(scrapy.Spider):
    name = 'aynuedu'
    allowed_domains = ['jwglxt.aynu.edu.cn']
    start_urls = ['http://jwglxt.aynu.edu.cn/']

    VIEWSTATE = ''

    #处理第一次请求，提取登陆需要的额外参数
    def parse(self, response):
        #拿到cookie
        headers = response.headers
        newheaders = dict(headers)
        #设置referer
        newheaders['Referer'] = 'http://jwglxt.aynu.edu.cn/'

        yield scrapy.Request(url="http://jwglxt.aynu.edu.cn/_data/home_login.aspx",callback=self.parse_loginurl,method='GET',headers=newheaders)


    def parse_loginurl(self,response):
        """
        访问登陆的网址，拿到额外的参数
        :param response:
        :return:
        """
        headers = response.headers
        newheaders = dict(headers)
        # 设置referer
        newheaders['Referer'] = 'http://jwglxt.aynu.edu.cn/_data/home_login.aspx'
        newheaders['Accept']='image/webp,image/apng,image/*,*/*;q=0.8'

        #使用正则表达式获取数据
        self.VIEWSTATE = re.search(r'<input type="hidden" name="__VIEWSTATE" value="(.*)"', response.text).group(1)
        print self.VIEWSTATE
        url = "http://jwglxt.aynu.edu.cn/sys/ValidateCode.aspx?t=" + str(random.randint(0, 999))
        yield scrapy.Request(url=url, callback=self.parse_yzmurl,method='GET', headers=newheaders)

    def parse_yzmurl(self,response):
        """
        获取验证码
        :param response:
        :return:
        """
        with open("yzm.jpg","wb") as f:
            f.write(response.body)
        time.sleep(1)
        #打开该验证码
        im = Image.open('yzm.jpg')
        im.show()
        yzm = raw_input("please input yzm:")
        #
        print yzm
        print self.VIEWSTATE

        username = str(raw_input("please input username:"))
        print username
        passwd = str(raw_input("please input passwd:"))
        print passwd

        # username = "xxx"
        # passwd = "xxx"
        # 密码加密
        passwd_jiami = md5_encrypt((username + md5_encrypt(passwd)[0:30].upper() + '10479'))[0:30].upper()
        # 验证码加密
        yzm_jiami = md5_encrypt((md5_encrypt(yzm.upper())[0:30].upper() + '10479'))[0:30].upper()


        url = 'http://jwglxt.aynu.edu.cn/_data/home_login.aspx'
        login_data = {
            '__VIEWSTATE': self.VIEWSTATE,
            'pcInfo': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36undefined5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36 SN:NULL',
            'typeName': 'ѧ��',
            'dsdsdsdsdxcxdfgfg': passwd_jiami,
            'fgfggfdgtyuuyyuuckjg': yzm_jiami,
            'Sel_Type': 'STU',
            'txt_asmcdefsddsd': username,
            'txt_pewerwedsdfsdff': '',
            'txt_sdertfgsadscxcadsads': '',
        }

        login_headers = {
            'Referer': 'http://jwglxt.aynu.edu.cn/_data/home_login.aspx',
            'Origin': 'http://jwglxt.aynu.edu.cn',
        }

        # 发送请求参数，并调用指定回调函数处理
        #yield scrapy.Request(url=url, callback=self.parse_login,method='POST', headers=login_headers,)
        yield  scrapy.FormRequest(url=url,formdata=login_data,headers=login_headers,callback=self.parse_login,method="POST")

    def parse_login(self,response):
        """

        :param response:
        :return:
        """
        url = "http://jwglxt.aynu.edu.cn/xsxj/Stu_MyInfo_RPT.aspx"
        getinfoheaders = {
            'Referer': 'http://jwglxt.aynu.edu.cn/xsxj/Stu_MyInfo.aspx',
        }
        yield scrapy.Request(url=url,headers=getinfoheaders,callback=self.show_info)

    def show_info(self,response):
        print response.text

几点说明：

这里使用了 PIL ，用来打开保存好的验证码。

这里代码并没有出现cookie，这是scrapy 已经做好的，我们只需要改变需要变化的请求头即可。

其中post 请求，使用这样的方式。

scrapy.FormRequest(url=url,formdata=login_data,headers=login_headers,callback=self.parse_login,method="POST")