用Python区分静态与动态网页

用Python区分静态与动态网页

最近导师分派了一个任务,需要爬取很多数据,发现有的url是静态的,有的是动态加载的,用程序去爬取肯定要调用不同的代码,要实现自动爬取就先要区别是静态网页还是动态加载数据的页面。

  • 环境
    Python 3.6 32bit
  • 查询资料
    为了区分这两种页面的不同,我查询了很多页面上提供的信息,发现网页分为动态、静态和伪静态。

htm或html静态或伪静态,asp、jsp、php、shtml等动态文件

而区分静态和伪静态则需要用到:

‘javascript:alert(document.lastModified)’
此方法可以判断一个网页的最后更新时间。如果这个时间与现在的时间相同,说明是伪静态的,反之为真静态的。

用法就是将这句代码粘贴到所要测试页面的地址栏,回车即可出现时间提示。

经过测试,静态页面提示的时间与系统时间不一样,而伪静态或动态页面则提示的时间与系统时间相同。


静态页面测试


动态页面测试


到了这基本思路有了,那如何用python 实现呢,最近刚刚学了python,许多东西还不是那么熟悉,但是通过学习:廖雪峰的python教程
里面对urllib模块的介绍,通过学习和测试,发现静态网页HTTP响应的头里面有lastModified,而动态或者伪静态却没有,这提供了一个思路。于是:

from urllib import request
url='http://ao.zzu.edu.cn/wang/15/20160613/143.html'
resp=request.urlopen(url)
for k,v in resp.getheaders():
    if k=='Last-Modified':
        print(k,v)
d=resp.getheaders()
print(d)

在这里需要注意,getheaders()返回的是一个list, list中装着tuple。
输出结果

本人是一个新手,如有不对的地方,请大家批评指正。


参考:
[1]http://ask.seowhy.com/question/26303?item_id=99705&rf=false
[2]http://www.cnblogs.com/bluesungz/p/5955170.html

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苏啊苏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值