教务系统爬虫 采坑指南

本文介绍了一个后端爬虫如何处理陕师大研究生网的内网认证问题,包括通过抓包分析获得COOKIE、理解POST认证过程以及构造认证请求的详细步骤。关键点在于验证码图片请求时设置的cookie,以及从网页中提取隐藏的CSRF_TOKEN。使用redis存储cookies,flask作为后端,结合requests库进行请求。提供了代码参考链接。
摘要由CSDN通过智能技术生成

说明

  • 需求:后端爬虫,实现爬取图片返回前端,前端填完表之后后端爬取相应信息。
  • redis, flask:redis存cookies,flask做后端
  • requests:没什么特别复杂的,关键的是弄清楚常用库函数的使用,抓包分析的时候搞清楚网站的认证逻辑
  • 请求网址:陕师大研究生网(内网才能访问)

三步采坑指南

Step1 抓包分析得到COOKIE

最关键的一点就在这,分析 什么时候设置的cookie
首次请求
第一次请求的时候,并没有设置cookie,cookie是在请求验证码图片的时候才设置的
第一次出现cookies

Step2 分析POST认证过程

分析POST
form data带着隐藏的CSRF_TOKEN,所以应该在网页中去找哪里存了这三个值

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值