分析两种显著网站的数据传输方式
最近在做有关python爬虫的毕业设计的时候,学习到了很多东西。下面主要记载下有关两种显著网站的数据传输方式。
在平时的网站中,我发现存在两种网站,一个是静态的网页,它的显著特征是当你打开网页的时候,它的数据是随着网页HTML文件一起通过GET的请求方式传输到浏览器的;另一种是动态的网页,它的显著特征是当你打开网页的时候,它的数据(表格,列表)是通过AJAX的传输方式传输到浏览器的。显然,在爬取这两种数据的时候,简单的应该是第一种静态的,比较难一点的属于动态的网页。
静态的网页
在我爬取的网站中,静态的网页尤为减淡,但是如何辨别哪一种数据静态的网页呢。这里就拿51job网站来举例吧。我们打开www.51job.com,然后找到高级搜索,进入之后输入关键字“计算机”,然后我们得到了一个很长的列表,得到一个一共2000页的招聘信息网页。我们需要对这些招聘信息进行爬取。当我们点击下一页的时候,发现整个页面重新被加载了一遍。
当速度太快的时候,我们通过chrome的调试台(F12呼出)的Network查看当这个网页加载时传输了哪些文件。因此,我们可以判断这个网站属于静态的网站。
我们可以通过python的代码进行网页爬取网页源文件
代码如下:
import urllib.request
import http.cookiejar
url =