[Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)

先来说一下我们学校的网站:

http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html

查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是加权平均分。

显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用python做一个爬虫来解决这个问题。



1.决战前夜

先来准备一下工具:HttpFox插件。

这是一款http协议分析插件,分析页面请求和响应的时间、内容、以及浏览器用到的COOKIE等。

以我为例,安装在火狐上即可,效果如图:

可以非常直观的查看相应的信息。

点击start是开始检测,点击stop暂停检测,点击clear清除内容。

一般在使用之前,点击stop暂停,然后点击clear清屏,确保看到的是访问当前页面获得的数据。



2.深入敌后

下面就去山东大学的成绩查询网站,看一看在登录的时候,到底发送了那些信息。

先来到登录页面,把httpfox打开,clear之后,点击start开启检测:


输入完了个人信息,确保httpfox处于开启状态,然后点击确定提交信息,实现登录。

这个时候可以看到,httpfox检测到了三条信息:

这时点击stop键,确保捕获到的是访问该页面之后反馈的数据,以便我们做爬虫的时候模拟登陆使用。



3.庖丁解牛

乍一看我们拿到了三个数据,两个是GET的一个是POST的,但是它们到底是什么,应该怎么用,我们还一无所知。

所以,我们需要挨个查看一下捕获到的内容。

先看POST的信息:


既然是POST的信息,我们就直接看PostData即可。

可以看到一共POST两个数据,stuid和pwd。

并且从Type的Redirect to可以看出,POST完毕之后跳转到了bks_login2.loginmessage页面。

由此看出,这个数据是点击确定之后提交的表单数据。

点击cookie标签,看看cookie信息:


没错,收到了一个ACCOUNT的cookie,并且在session结束之后自动销毁。

那么提交之后收到了哪些信息呢?

我们来看看后面的两个GET数据。

先看第一个,我们点击content标签可以查看收到的内容,是不是有一种生吞活剥的快感-。-HTML源码暴露无疑了:


看来这个只是显示页面的html源码而已,点击cookie,查看cookie的相关信息:



啊哈,原来html页面的内容是发送了cookie信息之后才接受到的。

再来看看最后一个接收到的信息:

大致看了一下应该只是一个叫做style.css的css文件,对我们没有太大的作用。




4.冷静应战

既然已经知道了我们向服务器发送了什么数据,也知道了我们接收到了什么数据,基本的流程如下:

  • 首先,我们POST学号和密码--->然后返回cookie的值
  • 然后发送cookie给服务器--->返回页面信息。
  • 获取到成绩页面的数据,用正则表达式将成绩和学分单独取出并计算加权平均数。

OK,看上去好像很简单的样纸。那下面我们就来试试看吧。

但是在实验之前,还有一个问题没有解决,就是POST的数据到底发送到了哪里?

再来看一下当初的页面:

很明显是用一个html框架来实现的,也就是说,我们在地址栏看到的地址并不是右边提交表单的地址。

那么怎样才能获得真正的地址-。-右击查看页面源代码:

嗯没错,那个name="w_right"的就是我们要的登录页面。

网站的原来的地址是:

http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html

所以,真正的表单提交的地址应该是:

http://jwxt.sdu.edu.cn:7777/zhxt_bks/xk_login.html

输入一看,果不其然:


靠居然是清华大学的选课系统。。。目测是我校懒得做页面了就直接借了。。结果连标题都不改一下。。。

但是这个页面依旧不是我们需要的页面,因为我们的POST数据提交到的页面,应该是表单form的ACTION中提交到的页面。

也就是说,我们需要查看源码,来知道POST数据到底发送到了哪里:



嗯,目测这个才是提交POST数据的地址。

整理到地址栏中,完整的地址应该如下:

http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login

(获取的方式很简单,在火狐浏览器中直接点击那个链接就能看到这个链接的地址了)


5.小试牛刀

接下来的任务就是:用python模拟发送一个POST的数据并取到返回的cookie值。

关于cookie的操作可以看看这篇博文:

http://blog.csdn.net/wxg694175346/article/details/8925978

我们先准备一个POST的数据,再准备一个cookie的接收,然后写出源码如下:

[python]  view plain  copy
  1. # -*- coding: utf-8 -*-  
  2. #---------------------------------------  
  3. #   程序:山东大学爬虫  
  4. #   版本:0.1  
  5. #   作者:why  
  6. #   日期:2013-07-12  
  7. #   语言:Python 2.7  
  8. #   操作:输入学号和密码  
  9. #   功能:输出成绩的加权平均值也就是绩点  
  10. #---------------------------------------  
  11.   
  12. import urllib    
  13. import urllib2  
  14. import cookielib  
  15.   
  16. cookie = cookielib.CookieJar()    
  17. opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))  
  18.   
  19. #需要POST的数据#  
  20. postdata=urllib.urlencode({    
  21.     'stuid':'201100300428',    
  22.     'pwd':'921030'    
  23. })  
  24.   
  25. #自定义一个请求#  
  26. req = urllib2.Request(    
  27.     url = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login',    
  28.     data = postdata  
  29. )  
  30.   
  31. #访问该链接#  
  32. result = opener.open(req)  
  33.   
  34. #打印返回的内容#  
  35. print result.read()     

如此这般之后,再看看运行的效果:


ok,如此这般,我们就算模拟登陆成功了。


6.偷天换日

接下来的任务就是用爬虫获取到学生的成绩。

再来看看源网站。

开启HTTPFOX之后,点击查看成绩,发现捕获到了如下的数据:


点击第一个GET的数据,查看内容可以发现Content就是获取到的成绩的内容。


而获取到的页面链接,从页面源代码中右击查看元素,可以看到点击链接之后跳转的页面(火狐浏览器只需要右击,“查看此框架”,即可):


从而可以得到查看成绩的链接如下:

http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre


7.万事俱备

现在万事俱备啦,所以只需要把链接应用到爬虫里面,看看能否查看到成绩的页面。

从httpfox可以看到,我们发送了一个cookie才能返回成绩的信息,所以我们就用python模拟一个cookie的发送,以此来请求成绩的信息:

[python]  view plain  copy
  1. # -*- coding: utf-8 -*-  
  2. #---------------------------------------  
  3. #   程序:山东大学爬虫  
  4. #   版本:0.1  
  5. #   作者:why  
  6. #   日期:2013-07-12  
  7. #   语言:Python 2.7  
  8. #   操作:输入学号和密码  
  9. #   功能:输出成绩的加权平均值也就是绩点  
  10. #---------------------------------------  
  11.   
  12. import urllib    
  13. import urllib2  
  14. import cookielib  
  15.   
  16. #初始化一个CookieJar来处理Cookie的信息#  
  17. cookie = cookielib.CookieJar()  
  18.   
  19. #创建一个新的opener来使用我们的CookieJar#  
  20. opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))  
  21.   
  22. #需要POST的数据#  
  23. postdata=urllib.urlencode({    
  24.     'stuid':'201100300428',    
  25.     'pwd':'921030'    
  26. })  
  27.   
  28. #自定义一个请求#  
  29. req = urllib2.Request(    
  30.     url = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login',    
  31.     data = postdata  
  32. )  
  33.   
  34. #访问该链接#  
  35. result = opener.open(req)  
  36.   
  37. #打印返回的内容#  
  38. print result.read()  
  39.   
  40. #打印cookie的值  
  41. for item in cookie:    
  42.     print 'Cookie:Name = '+item.name    
  43.     print 'Cookie:Value = '+item.value  
  44.   
  45.       
  46. #访问该链接#  
  47. result = opener.open('http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre')  
  48.   
  49. #打印返回的内容#  
  50. print result.read()  

按下F5运行即可,看看捕获到的数据吧:


既然这样就没有什么问题了吧,用正则表达式将数据稍稍处理一下,取出学分和相应的分数就可以了。



8.手到擒来

这么一大堆html源码显然是不利于我们处理的,下面要用正则表达式来抠出必须的数据。

关于正则表达式的教程可以看看这个博文:

http://blog.csdn.net/wxg694175346/article/details/8929576

我们来看看成绩的源码:



既然如此,用正则表达式就易如反掌了。


我们将代码稍稍整理一下,然后用正则来取出数据:

[python]  view plain  copy
  1. # -*- coding: utf-8 -*-  
  2. #---------------------------------------  
  3. #   程序:山东大学爬虫  
  4. #   版本:0.1  
  5. #   作者:why  
  6. #   日期:2013-07-12  
  7. #   语言:Python 2.7  
  8. #   操作:输入学号和密码  
  9. #   功能:输出成绩的加权平均值也就是绩点  
  10. #---------------------------------------  
  11.   
  12. import urllib    
  13. import urllib2  
  14. import cookielib  
  15. import re  
  16.   
  17. class SDU_Spider:    
  18.     # 申明相关的属性    
  19.     def __init__(self):      
  20.         self.loginUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login'   # 登录的url  
  21.         self.resultUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre' # 显示成绩的url  
  22.         self.cookieJar = cookielib.CookieJar()                                      # 初始化一个CookieJar来处理Cookie的信息  
  23.         self.postdata=urllib.urlencode({'stuid':'201100300428','pwd':'921030'})     # POST的数据  
  24.         self.weights = []   #存储权重,也就是学分  
  25.         self.points = []    #存储分数,也就是成绩  
  26.         self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookieJar))  
  27.   
  28.     def sdu_init(self):  
  29.         # 初始化链接并且获取cookie  
  30.         myRequest = urllib2.Request(url = self.loginUrl,data = self.postdata)   # 自定义一个请求  
  31.         result = self.opener.open(myRequest)            # 访问登录页面,获取到必须的cookie的值  
  32.         result = self.opener.open(self.resultUrl)       # 访问成绩页面,获得成绩的数据  
  33.         # 打印返回的内容  
  34.         # print result.read()  
  35.         self.deal_data(result.read().decode('gbk'))  
  36.         self.print_data(self.weights);  
  37.         self.print_data(self.points);  
  38.   
  39.     # 将内容从页面代码中抠出来    
  40.     def deal_data(self,myPage):    
  41.         myItems = re.findall('<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>',myPage,re.S)     #获取到学分  
  42.         for item in myItems:  
  43.             self.weights.append(item[0].encode('gbk'))  
  44.             self.points.append(item[1].encode('gbk'))  
  45.   
  46.               
  47.     # 将内容从页面代码中抠出来  
  48.     def print_data(self,items):    
  49.         for item in items:    
  50.             print item  
  51.               
  52. #调用    
  53. mySpider = SDU_Spider()    
  54. mySpider.sdu_init()    

水平有限,,正则是有点丑,。运行的效果如图:

ok,接下来的只是数据的处理问题了。。




9.凯旋而归

完整的代码如下,至此一个完整的爬虫项目便完工了。

[python]  view plain  copy
  1. # -*- coding: utf-8 -*-  
  2. #---------------------------------------  
  3. #   程序:山东大学爬虫  
  4. #   版本:0.1  
  5. #   作者:why  
  6. #   日期:2013-07-12  
  7. #   语言:Python 2.7  
  8. #   操作:输入学号和密码  
  9. #   功能:输出成绩的加权平均值也就是绩点  
  10. #---------------------------------------  
  11.   
  12. import urllib    
  13. import urllib2  
  14. import cookielib  
  15. import re  
  16. import string  
  17.   
  18.   
  19. class SDU_Spider:    
  20.     # 申明相关的属性    
  21.     def __init__(self):      
  22.         self.loginUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login'   # 登录的url  
  23.         self.resultUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre' # 显示成绩的url  
  24.         self.cookieJar = cookielib.CookieJar()                                      # 初始化一个CookieJar来处理Cookie的信息  
  25.         self.postdata=urllib.urlencode({'stuid':'201100300428','pwd':'921030'})     # POST的数据  
  26.         self.weights = []   #存储权重,也就是学分  
  27.         self.points = []    #存储分数,也就是成绩  
  28.         self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookieJar))  
  29.   
  30.     def sdu_init(self):  
  31.         # 初始化链接并且获取cookie  
  32.         myRequest = urllib2.Request(url = self.loginUrl,data = self.postdata)   # 自定义一个请求  
  33.         result = self.opener.open(myRequest)            # 访问登录页面,获取到必须的cookie的值  
  34.         result = self.opener.open(self.resultUrl)       # 访问成绩页面,获得成绩的数据  
  35.         # 打印返回的内容  
  36.         # print result.read()  
  37.         self.deal_data(result.read().decode('gbk'))  
  38.         self.calculate_date();  
  39.   
  40.     # 将内容从页面代码中抠出来    
  41.     def deal_data(self,myPage):    
  42.         myItems = re.findall('<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>',myPage,re.S)     #获取到学分  
  43.         for item in myItems:  
  44.             self.weights.append(item[0].encode('gbk'))  
  45.             self.points.append(item[1].encode('gbk'))  
  46.   
  47.     #计算绩点,如果成绩还没出来,或者成绩是优秀良好,就不运算该成绩  
  48.     def calculate_date(self):  
  49.         point = 0.0  
  50.         weight = 0.0  
  51.         for i in range(len(self.points)):  
  52.             if(self.points[i].isdigit()):  
  53.                 point += string.atof(self.points[i])*string.atof(self.weights[i])  
  54.                 weight += string.atof(self.weights[i])  
  55.         print point/weight  
  56.   
  57.               
  58. #调用    
  59. mySpider = SDU_Spider()    
  60. mySpider.sdu_init()    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 您好!为了学习python网络爬虫,您可以考虑以下几个方面: 1. 了解HTTP协议和HTML的基本知识,以了解网络爬虫的工作原理。 2. 使用Python的第三方库,如requests、Beautiful Soup和Scrapy等,来完成网络爬虫的实际操作。 3. 练习编写简单的爬虫程序,如爬取网页内容、提取数据等。 4. 学习如何处理网络爬虫中的常见问题,如反爬虫、爬取限制等。 5. 学习如何使用数据库,如MySQL、MongoDB等,来存储爬取的数据。 希望这些信息对您有所帮助! ### 回答2: 学习Python网络爬虫需要理解以下几个基本概念和技术: 1. Python基础知识:首先要熟悉Python语言的基础知识,包括变量、数据类型、流程控制、函数、面向对象编程等。 2. 网络基础知识:了解HTTP请求和响应的基本原理,熟悉常见的网络协议和概念,如URL、HTTP头部、状态码等。 3. 正则表达式:学习使用正则表达式来匹配和提取网页中的特定信息,例如URL、文本内容等。 4. HTML和CSS基础:理解网页的基本结构和标签,能够使用CSS选择器来提取网页中的特定元素。 5. HTTP库:掌握使用Python的HTTP库,如requests或urllib,发送HTTP请求并处理响应。 6. HTML解析库:学习使用HTML解析库,如Beautiful Soup或lxml,解析HTML页面,提取所需的信息。 7. 数据存储:熟悉使用Python中的文件操作和数据库操作,将爬取到的数据保存到本地文件或数据库中。 8. 反爬虫策略:了解常见的反爬虫机制,学会使用字典、代理、用户代理和间隔时间等策略应对反爬虫措施。 9. 动态网页爬取:学习使用Selenium等工具,模拟浏览器行为,爬取动态网页中的数据。 10. 扩展知识:了解常见的爬虫框架,如Scrapy,学习使用框架提供的功能加快开发速度。 在学习过程中,可以通过查阅网上的教程、阅读相关书籍和参与相关的在线课程,逐步掌握这些知识和技能。同时,通过实践来提升自己的能力,逐渐熟悉爬虫的流程和调试技巧。记得不断积累经验和解决问题的能力,不断尝试新的爬虫项目,提高自己的技术水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值