python网络爬虫学习(五) 模拟登陆北邮信息门户并爬取信息_爬虫在邮教育网,抓取页面消息-CSDN博客

本文链接：https://blog.csdn.net/kelvinmao/article/details/51628649

本文介绍如何使用Python的requests库和Firefox的Temper Data插件模拟登录北邮信息门户，并爬取相关数据。通过分析登录表单，获取lt等关键参数，并利用session保持cookie，实现登录与爬取。

摘要由CSDN通过智能技术生成

之前利用爬虫爬取过百度贴吧的部分页面，但是百度贴吧并不需要登录。当我们发现一些网站上有具有实用价值的信息时，又往往需要登录后才能查看这些信息。那么如何通过python模拟登陆这些网站呢？我们以北邮信息门户为例。

一.工具

1.requests库
2.firefox浏览器和Temper Data

“工欲善其事，必先利其器”，之前我们介绍过urllib和urllib2这两个python自带的库。而requests库是一个第三方库，相比于前两个库则显得更为好用。
requests库提供了get，post，delete等方法，我们待会儿将用它来向网站发出请求

Temper Data是一个firefox插件，它能够拦截表单，以便我们查看表单内容。

二.爬取前的准备工作

首先打开信息门户网站”http://my.bupt.edu.cn/index.portal“,一个登录界面挡住了我们
这里写图片描述
我们使用chrome浏览器的开发者模式，按下F12即可进入。先输入一个错误的密码，点击登录按钮向网站发送一个表单。之后我们在查看这个表单都具有哪些内容。

安全起见，我没有输入真实的密码，擦掉了cookie等敏感信息。我们看到表单中具有这样几个内容: