Python爬虫技术第32节最佳实践和常见问题_pyhton的robots检查编写-CSDN博客

本文链接：https://blog.csdn.net/hummhumm/article/details/140886962

Python爬虫技术是一种用于从网站上自动抓取数据的技术。它涉及到网络请求、HTML解析、数据提取等多个环节。下面我将详细介绍Python爬虫的最佳实践以及一些常见的问题解决方法，包括日志记录和错误报告、爬虫维护和更新等方面。

Python爬虫基础架构

一个典型的Python爬虫程序通常包含以下几个部分：

请求模块：负责发送HTTP请求获取网页内容。
解析模块：对获取到的HTML内容进行解析，提取所需数据。
存储模块：将提取的数据保存到本地文件、数据库或其他存储系统中。
控制模块：管理整个爬虫的运行流程，包括任务调度、异常处理等。

Python爬虫最佳实践

1. 遵守Robots协议

在爬取之前，检查目标网站的robots.txt文件，确保你的爬虫行为符合网站的政策。
使用urllib.robotparser库来读取和解析robots.txt文件。

2. 用户代理设置

使用合理的User-Agent来模拟浏览器访问，避免被服务器识别为爬虫而被封禁。
可以随机更换User-Agent来降低被检测的风险。

3. 请求频率控制

控制请求间隔时间，避免给目标服务器带来过大负担。
使用time.sleep()函数来延迟请求，或者使用更高级的库如scrapy来自动处理延迟。

4. 错误处理

对HTTP请求设置超时时间。
捕获异常并进行适当的错误处理，例如重试机制。

5. 数据持久化

使用合适的数据库存储数据，如SQLite、MySQL等。
考虑数据的结构化存储，比如使用CSV或JSON格式。

日志记录和错误报告

日志记录

使用Python内置的logging模块来记录爬虫的运行状态。
设置不同的日志级别，如DEBUG、INFO、WARNING、ERROR、CRITICAL。
将日志输出到文件，便于后期分析和审计。

错误报告

当出现错误时，通过电子邮件或其他通知方式发送错误报告。
可以利用第三方服务如Sentry、Loggly等进行错误追踪和管理。

爬虫维护和更新

维护

定期检查目标网站的布局变化，更新解析规则。
监控爬虫性能和效率，及时发现并解决问题。

更新

使用版本控制系统（如Git）来管理爬虫代码。
创建自动化测试来确保代码修改后仍能正常工作。

示例代码

这里给出一个简单的Python爬虫框架示例：

import requests
from bs4 import BeautifulSoup
import logging
import time

# 配置日志
logging.basicConfig(filename='spider.log', level=logging.INFO,
                    format='%(asctime)s:%(levelname)s:%(message)s')

def fetch_url(url):
    try:
        response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
        response.raise_for_status()
        return response.text
    except requests.RequestException as e:
        logging.error(f"Failed to fetch {url}: {e}")
        return None

def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 假设我们要提取所有文章标题
    titles = [title.get_text() for title in soup.find_all('h2')]
    return titles

def main():
    url = 'https://example.com'
    html = fetch_url(url)
    if html:
        titles = parse_html(html)
        print(titles)
        logging.info("Successfully fetched and parsed the data.")
    else:
        logging.warning("Failed to fetch or parse the data.")

if __name__ == "__main__":
    main()

常见问题及解决方案

被目标网站封锁
- 更换IP地址或使用代理服务器。
- 减少请求频率。
页面布局改变导致解析出错
- 定期检查目标网站的HTML结构，并相应地更新解析规则。
数据存储问题
- 选择合适的数据存储方案，如使用关系型数据库或NoSQL数据库。
- 设计合理的数据模型。

通过遵循以上最佳实践和解决方案，你可以构建出更加健壮和高效的Python爬虫程序。如果有更具体的场景或问题，请随时告知，我会提供更详细的指导。

下面我们将基于之前的示例代码进一步扩展，增加更多的功能和细节，以构建一个更完整的Python爬虫程序。这次我们将添加日志记录、错误处理、以及爬虫维护和更新方面的功能。

示例代码

假设我们的目标是从一个新闻网站上抓取最新的文章标题和链接。我们将使用requests库来发送HTTP请求，并使用BeautifulSoup库来解析HTML文档。

import requests
from bs4 import BeautifulSoup
import logging
import time
import os

# 配置日志
logging.basicConfig(filename='spider.log', level=logging.INFO,
                    format='%(asctime)s:%(levelname)s:%(message)s')

# 用户代理列表
USER_AGENTS = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.50 Safari/537.36",
]

def get_random_user_agent():
    """返回随机的用户代理"""
    return USER_AGENTS[random.randint(0, len(USER_AGENTS) - 1)]

def fetch_url(url, timeout=10, retries=3):
    """发送HTTP请求并返回响应文本"""
    headers = {'User-Agent': get_random_user_agent()}
    try:
        response = requests.get(url, headers=headers, timeout=timeout)
        response.raise_for_status()
        return response.text
    except requests.RequestException as e:
        logging.error(f"Failed to fetch {url}: {e}")
        if retries > 0:
            logging.info(f"Retrying fetching {url} ({retries} retries left)")
            time.sleep(5)  # 等待5秒后重试
            return fetch_url(url, timeout, retries - 1)
        else:
            return None

def parse_html(html):
    """解析HTML文档并提取文章标题和链接"""
    soup = BeautifulSoup(html, 'html.parser')
    articles = []
    for article in soup.find_all('article'):
        title = article.find('h2').get_text().strip()
        link = article.find('a')['href']
        articles.append({'title': title, 'link': link})
    return articles

def save_articles(articles):
    """保存文章到本地文件"""
    timestamp = time.strftime("%Y%m%d-%H%M%S")
    filename = f"articles_{timestamp}.json"
    with open(filename, 'w') as file:
        json.dump(articles, file, indent=2)

def main():
    url = 'https://example.com/news'
    html = fetch_url(url)
    if html:
        articles = parse_html(html)
        save_articles(articles)
        logging.info("Successfully fetched and parsed the data.")
    else:
        logging.warning("Failed to fetch or parse the data.")

if __name__ == "__main__":
    main()

代码解释

日志记录和错误处理
- 使用logging模块记录爬虫的日志。
- 在fetch_url函数中，增加了重试机制来处理网络请求中的异常。
数据提取
- 在parse_html函数中，使用BeautifulSoup解析HTML文档并提取文章标题和链接。
数据存储
- 在save_articles函数中，将提取的文章数据保存到本地JSON文件中。
用户代理
- 使用了一个用户代理列表，并在每次请求时随机选择一个用户代理。
错误处理
- 在fetch_url函数中，通过设置重试次数和等待时间来处理网络请求失败的情况。

扩展功能

接下来，我们可以考虑添加更多功能来进一步完善爬虫程序：

多线程或异步请求
- 使用concurrent.futures或asyncio来并发处理多个请求，加快爬取速度。
代理服务器
- 使用代理服务器来避免被目标网站封禁。
更复杂的解析逻辑
- 根据目标网站的具体结构，可能需要更复杂的解析逻辑来提取数据。
自动化部署
- 结合前面提到的CI/CD流程，实现爬虫的自动化部署。
监控和报警
- 使用监控工具（如Prometheus、Grafana）来监控爬虫的运行状态，并在出现异常时发送报警。

通过不断地扩展和完善，你可以构建出一个功能强大且稳定的爬虫程序。如果你有更具体的场景或需求，请随时告诉我，我会提供更多帮助。

现在我们将进一步扩展之前的Python爬虫示例，添加多线程处理能力以提高爬虫的效率，并实现更细致的日志记录和错误处理机制。此外，我们还将探讨如何维护和更新爬虫以适应网站的变化。

示例代码

为了实现多线程处理，我们将使用Python标准库中的concurrent.futures模块。这样可以并行地处理多个URL请求，从而加快爬虫的速度。

import requests
from bs4 import BeautifulSoup
import logging
import time
import os
import random
import json
from concurrent.futures import ThreadPoolExecutor

# 配置日志
logging.basicConfig(filename='spider.log', level=logging.INFO,
                    format='%(asctime)s:%(levelname)s:%(message)s')

# 用户代理列表
USER_AGENTS = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.50 Safari/537.36",
]

def get_random_user_agent():
    """返回随机的用户代理"""
    return USER_AGENTS[random.randint(0, len(USER_AGENTS) - 1)]

def fetch_url(url, timeout=10, retries=3):
    """发送HTTP请求并返回响应文本"""
    headers = {'User-Agent': get_random_user_agent()}
    try:
        response = requests.get(url, headers=headers, timeout=timeout)
        response.raise_for_status()
        return response.text
    except requests.RequestException as e:
        logging.error(f"Failed to fetch {url}: {e}")
        if retries > 0:
            logging.info(f"Retrying fetching {url} ({retries} retries left)")
            time.sleep(5)  # 等待5秒后重试
            return fetch_url(url, timeout, retries - 1)
        else:
            return None

def parse_html(html):
    """解析HTML文档并提取文章标题和链接"""
    soup = BeautifulSoup(html, 'html.parser')
    articles = []
    for article in soup.find_all('article'):
        title = article.find('h2').get_text().strip()
        link = article.find('a')['href']
        articles.append({'title': title, 'link': link})
    return articles

def save_articles(articles):
    """保存文章到本地文件"""
    timestamp = time.strftime("%Y%m%d-%H%M%S")
    filename = f"articles_{timestamp}.json"
    with open(filename, 'w') as file:
        json.dump(articles, file, indent=2)

def fetch_and_parse(url):
    """并行地执行获取和解析操作"""
    html = fetch_url(url)
    if html:
        articles = parse_html(html)
        return articles
    else:
        return []

def main():
    urls = ['https://example.com/news', 'https://example.com/articles']  # 假设有两个URL需要爬取
    max_workers = 2  # 设置最大并发数
    
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        future_to_url = {executor.submit(fetch_and_parse, url): url for url in urls}
        for future in future_to_url:
            url = future_to_url[future]
            try:
                articles = future.result()
                save_articles(articles)
                logging.info(f"Successfully fetched and parsed data from {url}.")
            except Exception as exc:
                logging.error(f"Failed to fetch or parse data from {url}: {exc}")

if __name__ == "__main__":
    main()

代码解释

多线程处理
- 使用ThreadPoolExecutor来并行处理多个URL请求。
- future_to_url字典用于跟踪每个Future对象对应的URL。
日志记录
- 记录成功的请求和解析结果，同时也记录失败的情况。
错误处理
- 在main函数中使用try-except块来捕获并记录任何未预期的异常。