Python 爬虫思路梳理

python模拟登陆教务系统爬取个人信息及成绩

/* 梳理思路 */
  • 通过CDT来了解登录教务系统的过程中,所有的GET/POST等请求内容,以及资源指向
  • GET请求了解其详细query参数,POST请求了解其formdata值
  • 构建请求,发送数据,处理返回数据

/* 关键代码 */
  • 建立请求加上cookie方便后面处理
  • self.cookies=cookielib.CookieJar();
    self.opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies)); request = urllib2.Request(self.loginUrl, self.postdata);
    result = self.opener.open(request);
    html = result.read();

/* 问题处理 */
  • 1. 验证码,找到验证码连接直接请求将返回的gif保存
  • pic = self.opener.open(self.checkCodeUrl).read();
    self.checkCode = raw_input("Wait a Moment...")
    fp = open("/Users/lister/Desktop/lg.gif","wb");
    fp.write(pic)
    fp.close()

  • 2. 不能登陆成功,尝试加上header


/* END OF WORK */
  • 在做之前尝试着去思考,去提前想象一下作为浏览器它的整个流程是怎样的,再去顺着思路在浏览器中寻找蛛丝马迹
  • 出现bug是在正常不过的,但是能够耐着性子去解决它,这还需要更多的修炼
  • 真正的将代码运用在自己需要的地方,并绞尽脑汁实现它,你会收获以外的惊喜,相信我。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值