简单的爬虫网页下载举例

最新推荐文章于 2024-06-18 16:33:43 发布

cheneyshark

最新推荐文章于 2024-06-18 16:33:43 发布

阅读量1.1k

点赞数

分类专栏： Python爬虫文章标签：下载网页爬虫链接爬虫 ID遍历爬虫用户代理

本文链接：https://blog.csdn.net/cheneyshark/article/details/79150988

版权

本文介绍了爬虫的基本操作，包括如何下载网页，设置用户代理以避免被识别为机器人，以及如何进行ID遍历和链接爬虫。在链接爬虫部分，讲解了解析robots.txt文件的重要性以及设定爬虫的最大深度限制。

摘要由CSDN通过智能技术生成

下载网页（重传）

重传功能：如果返回如503等错误吗，可以尝试重传，错误吗可以参考：https://tools.ietf.org/html/rfc7231

import urllib2

def download(url, num_retries=2):
    print 'Downloading:',url
    try:
        html = urllib2.urlopen(url).read()
    except urllib2.URLError as e:
        print 'Download error:', e.reason
        html = None
        
        # 此部分实现当返回错误为5xx时，进行重传
        if num_retries > 0:
            if hasattr(e, 'code') and 500 <= e.code < 600:
                return download(url, num_retries-1)
        # ——重传功能结束
        
        
    return html

# 测试：这个网站始终会返回 500 错误吗
download('http://httpstat.us/500')

运行结果：

设置用户代理

缺省情况下，urllib2使用 Python-urllib/2.7 作为用户代理下载网页内容&#x

最低0.47元/天解锁文章

cheneyshark

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
简单的爬虫网页下载举例

下载网页（重传）重传功能：如果返回如503等错误吗，可以尝试重传，错误吗可以参考：https://tools.ietf.org/html/rfc7231import urllib2def download(url, num_retries=2): print 'Downloading:',url try: html = urllib2.urlo
复制链接

扫一扫