用Python区分静态与动态网页
最近导师分派了一个任务,需要爬取很多数据,发现有的url是静态的,有的是动态加载的,用程序去爬取肯定要调用不同的代码,要实现自动爬取就先要区别是静态网页还是动态加载数据的页面。
- 环境
Python 3.6 32bit - 查询资料
为了区分这两种页面的不同,我查询了很多页面上提供的信息,发现网页分为动态、静态和伪静态。
htm或html静态或伪静态,asp、jsp、php、shtml等动态文件
而区分静态和伪静态则需要用到:
‘javascript:alert(document.lastModified)’
此方法可以判断一个网页的最后更新时间。如果这个时间与现在的时间相同,说明是伪静态的,反之为真静态的。
用法就是将这句代码粘贴到所要测试页面的地址栏,回车即可出现时间提示。
经过测试,静态页面提示的时间与系统时间不一样,而伪静态或动态页面则提示的时间与系统时间相同。
到了这基本思路有了,那如何用python 实现呢,最近刚刚学了python,许多东西还不是那么熟悉,但是通过学习:廖雪峰的python教程
里面对urllib模块的介绍,通过学习和测试,发现静态网页HTTP响应的头里面有lastModified,而动态或者伪静态却没有,这提供了一个思路。于是:
from urllib import request
url='http://ao.zzu.edu.cn/wang/15/20160613/143.html'
resp=request.urlopen(url)
for k,v in resp.getheaders():
if k=='Last-Modified':
print(k,v)
d=resp.getheaders()
print(d)
在这里需要注意,getheaders()返回的是一个list, list中装着tuple。
本人是一个新手,如有不对的地方,请大家批评指正。
参考:
[1]http://ask.seowhy.com/question/26303?item_id=99705&rf=false
[2]http://www.cnblogs.com/bluesungz/p/5955170.html