15分钟学 Python 第38天：Python 爬虫入门（四）

凡人的AI工具箱

已于 2024-10-05 08:58:49 修改

阅读量341

点赞数 11

分类专栏： 15分钟学Python 文章标签： python 爬虫开发语言后端人工智能

于 2024-10-05 08:53:18 首次发布

本文链接：https://blog.csdn.net/weixin_40780178/article/details/142710998

版权

15分钟学Python 专栏收录该内容

45 篇文章 5 订阅

订阅专栏

Day38 : Python爬虫异常处理与反爬虫机制

章节1：异常处理的重要性

在爬虫开发过程中，网络请求和数据解析常常会遭遇各种异常。正确的异常处理可以提高程序的稳定性，避免崩溃，并帮助开发者快速定位问题。

章节2：常见的异常类型

在爬虫开发中，主要有以下几种异常：

异常类型	描述
`requests.exceptions.RequestException`	基类异常，用于处理所有请求异常
`requests.exceptions.HTTPError`	表示HTTP错误，例如404或500错误
`requests.exceptions.ConnectionError`	表示网络连接错误
`requests.exceptions.Timeout`	请求超时错误
`requests.exceptions.TooManyRedirects`	请求重定向过多

章节3：异常处理示例

下面的代码展示了如何在发送请求时进行异常处理：

import requests

def fetch_url(url):
    try:
        response = requests.get(url)
        response.raise_for_status()  # 如果403或404都会引发异常
        return response.text
    except requests.exceptions.HTTPError as http_err:
        print(f"HTTP错误: {http_err}")
    except requests.exceptions.ConnectionError:
        print("连接错误，请检查网络连接。")
    except requests.exceptions.Timeout:
        print("请求超时，请重试。")
    except requests.exceptions.RequestException as e:
        print(f"请求时发生错误: {e}")
    return None

url = 'http://example.com'
data = fetch_url(url)
if data:
    print(data)

章节4：反爬虫机制概述

反爬虫机制是网站采用的一系列技术手段，用以阻止或限制爬虫的访问。常见的反爬虫策略包括：

反爬虫机制	描述
用户代理检查	检查请求的User-Agent是否正常
IP限制	限制特定IP地址的请求频率
验证码	在请求中插入验证码以确认用户身份
Cookie验证	使用Cookies验证用户身份
动态内容加载	使用JavaScript动态加载部分内容，爬虫无法直接获取

章节5：处理反爬虫机制

为了应对反爬虫机制，爬虫开发者可以采取一些策略：

5.1 设置用户代理（User-Agent）

伪装成浏览器发送请求：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)

5.2 使用代理

通过代理服务器绕过IP限制：

proxies = {
    'http': 'http://your_proxy:port',
    'https': 'http://your_proxy:port',
}
response = requests.get(url, proxies=proxies)

5.3 添加延迟

限制请求频率，以避免被封：

import time

for i in range(5):
    response = requests.get(url)
    print(response.status_code)
    time.sleep(2)  # 每次请求间隔2秒

章节6：完整示例 - 反爬虫处理

以下是一个示例程序，展示了如何应对反爬虫机制和进行异常处理。

import requests
import time

def fetch_url(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }
    proxies = {
        'http': 'http://your_proxy:port',
        'https': 'http://your_proxy:port',
    }
    try:
        response = requests.get(url, headers=headers, proxies=proxies)
        response.raise_for_status()
        return response.text
    except requests.exceptions.HTTPError as http_err:
        print(f"HTTP错误: {http_err}")
    except requests.exceptions.ConnectionError:
        print("连接错误，请检查网络连接。")
    except requests.exceptions.Timeout:
        print("请求超时，请重试。")
    except requests.exceptions.RequestException as e:
        print(f"请求时发生错误: {e}")

url = 'http://example.com'
for i in range(5):
    data = fetch_url(url)
    if data:
        print(f"请求成功: {len(data)} 字节")
    time.sleep(2)  # 每次请求间隔2秒

章节7：流量控制与限频策略

7.1 请求频率控制

为了避免触发反爬虫机制，可以设置请求频率：

随机延迟：使用随机数生成请求间隔。

import random

for i in range(5):
    delay = random.uniform(1, 5)  # 随机1到5秒之间
    time.sleep(delay)
    data = fetch_url(url)

章节8：异常和反爬虫的调试工具

工具	描述
Fiddler	网络调试代理，查看HTTP请求和响应头信息
Postman	API开发工具，测试HTTP请求
Selenium	处理动态网页抓取，可以完整自动化浏览器行为