好久没有更新博客了,哎!
最近在学习Python爬虫,成功的爬取了学校教务处中的信息,有点感慨!
下面我说一说我爬取的思路:
想要爬取学校的教务处首先我们应该知道学校教务处的登录地址在这里我们学校登录地址:http://210.44.176.43/default5.aspx(这里的ip可能会随着服务器的变化而不同,学校现在有五个服务器,这只是其中的一个)
找到之后我们应该查看一下提交data的表单信息,在这里我们会发现这样一些数据
data = {
'Button1': '', #这里是空一直不变
'RadioButtonList1': '学生', #登录身份
'TextBox1': User_name, #用户名
'TextBox2': Password, #密码
'TextBox3': Code, #这里是验证码
'__VIEWSTATE': '/wEPDwUKLTc2MzEwNzQ0Mw9kFgICAQ9kFgICBg8PZBYCHgdvbmNsaWNrBQ93aW5kb3cuY2xvc2UoKTtkZL4evS+YObzTtZ4Tbqs4aCU5LGjA',
'hidPdrs': '', #这里是空一直不变
'hidsc': '' #这里是空一直不变
}
其中的
__VIEWSTATE 也是一个不变的信息,当然会随着服务器的下次维护可能会改变
只要我们提交表单就可以登录我们需要登录的网站了
这里我爬取的是我个人的课表
当然代码(因为学校维护有可能代码会失效,我就不上传代码了),这里只教会思想