用Python区分静态与动态网页

最新推荐文章于 2024-05-09 19:24:51 发布

苏啊苏

最新推荐文章于 2024-05-09 19:24:51 发布

阅读量3.9k

点赞数

分类专栏： python 文章标签： python url

本文链接：https://blog.csdn.net/u014311318/article/details/64919615

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

用Python区分静态与动态网页

最近导师分派了一个任务，需要爬取很多数据，发现有的url是静态的，有的是动态加载的，用程序去爬取肯定要调用不同的代码，要实现自动爬取就先要区别是静态网页还是动态加载数据的页面。

环境
Python 3.6 32bit
查询资料
为了区分这两种页面的不同，我查询了很多页面上提供的信息，发现网页分为动态、静态和伪静态。

htm或html静态或伪静态，asp、jsp、php、shtml等动态文件

而区分静态和伪静态则需要用到：

‘javascript:alert(document.lastModified)’
此方法可以判断一个网页的最后更新时间。如果这个时间与现在的时间相同，说明是伪静态的，反之为真静态的。

用法就是将这句代码粘贴到所要测试页面的地址栏，回车即可出现时间提示。

经过测试，静态页面提示的时间与系统时间不一样，而伪静态或动态页面则提示的时间与系统时间相同。

静态页面测试

动态页面测试

到了这基本思路有了，那如何用python 实现呢，最近刚刚学了python，许多东西还不是那么熟悉，但是通过学习：廖雪峰的python教程
里面对urllib模块的介绍，通过学习和测试，发现静态网页HTTP响应的头里面有lastModified，而动态或者伪静态却没有，这提供了一个思路。于是：

from urllib import request
url='http://ao.zzu.edu.cn/wang/15/20160613/143.html'
resp=request.urlopen(url)
for k,v in resp.getheaders():
    if k=='Last-Modified':
        print(k,v)
d=resp.getheaders()
print(d)

在这里需要注意，getheaders()返回的是一个list, list中装着tuple。
输出结果

本人是一个新手，如有不对的地方，请大家批评指正。

参考：
[1]http://ask.seowhy.com/question/26303?item_id=99705&rf=false
[2]http://www.cnblogs.com/bluesungz/p/5955170.html

苏啊苏

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
用Python区分静态与动态网页

用Python区分静态与动态网页最近导师分派了一个任务，需要爬取很多数据，发现有的url是静态的，有的是动态加载的，用程序去爬取肯定要调用不同的代码，要实现自动爬取就先要区别是静态网页还是动态加载数据的页面。环境 Python 3.6 32bit 查询资料为了区分这两种页面的不同，我查询了很多页面上提供的信息，发现网页分为动态、静态和伪静态。 htm或html静态或伪静态，asp、jsp
复制链接

扫一扫