python 爬虫-1：下载网页源代码

最新推荐文章于 2024-09-08 14:38:10 发布

wangs0622

最新推荐文章于 2024-09-08 14:38:10 发布

阅读量1.7k

点赞数

分类专栏： python-爬虫文章标签： python 爬虫源代码

本文链接：https://blog.csdn.net/wangs0622/article/details/76804961

版权

本文介绍了一个使用Python实现的下载静态网页源代码的爬虫函数，该函数包含错误重试机制，尤其针对5xx错误。欲了解更多详细信息，请访问作者的博客：www.wangs0622.com。

摘要由CSDN通过智能技术生成

下载静态网页源代码的 python 爬虫函数源代码：

import urllib2
def download(url, num_retries = 5):
    '''
    function: 下载网页源代码，如果遇到 5xx 错误状态，则继续尝试下载，直到下载 num_retries 次为止。
    '''
    print "downloading " , url
    try:
        html = urllib2.urlopen(url).read()
    except urllib2.URLError as e:
        print "download error: " , e.reason
        html = None