爬取小说神秘复苏（0基础）-CSDN博客

本文链接：https://blog.csdn.net/czw520csh/article/details/145386877

在当今数字化时代，网络爬虫技术已经广泛应用于数据收集、信息提取等多个领域。本文将通过一个实际案例，详细介绍如何使用Python编写一个简单的网络爬虫来解析小说章节内容。我们将以一个小说网站为例，展示如何获取章节标题和内容。

1. 环境准备

在开始编写代码之前，确保你的Python环境中已经安装了以下必要的库：

requests：用于发送HTTP请求。
lxml：用于解析HTML文档。

可以通过以下命令安装这些库：

bash复制

pip install requests lxml

2. 代码实现

以下是完整的代码实现：

Python复制

import requests
from lxml import etree

def parse():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36 Edg/132.0.0.0'
    }
    url = 'https://www.bq01.cc/index/46234/10.html' 

    try:
        response = requests.get(url, headers=headers)
        response.encoding = response.apparent_encoding
    except Exception as a:
        print(f"请求失败:{a}")
        return

    def part(html):
        tree = etree.HTML(html)
        title = tree.xpath('//span[@class="title"]/text()')
        content = tree.xpath('//div[@id="chaptercontent"]//text()')
        return title, content

    title, content = part(response.text)

    if title:
        print("\n" + "=" * 30)
        print(f"章节标题: {title[0]}")
        print("=" * 30)
    else:
        print("警告：未找到章节标题！")

    if content:
        print("\n".join([line.strip() for line in content if line.strip()]))
    else:
        print("内容抓取失败，请检查XPath路径")

if __name__ == '__main__':
    parse()

3. 代码解析

请求头设置：
- headers 字典中设置了 User-Agent，模拟浏览器访问，避免被网站封禁。
发送请求：
- 使用 requests.get 方法发送GET请求，获取网页内容。
- response.encoding = response.apparent_encoding 确保响应内容的编码正确。
HTML解析：
- 使用 lxml.etree.HTML 方法将HTML内容解析为树结构。
- 使用 xpath 方法提取章节标题和内容。
结果输出：
- 如果成功提取到标题和内容，打印出来；否则，输出相应的警告信息。

4. 运行结果

运行上述代码后，你将看到类似以下的输出：

复制

==============================
章节标题: 第十章 神秘的邀请
==============================

在一个风和日丽的下午，主角接到了一个神秘的邀请函。邀请函上写着……

（内容省略）

5. 注意事项

网页链接合法性：
- 确保提供的网页链接是合法的，并且网站允许爬取数据。如果链接无效或网站有反爬机制，可能会导致请求失败。
网络问题：
- 如果遇到网络问题，可以尝试重新运行代码或检查网络连接。
XPath路径：
- 如果提取的内容为空，可能是XPath路径不正确。需要根据实际网页结构调整XPath路径。

6. 总结

通过本文的介绍，你已经学会了如何使用Python编写一个简单的网络爬虫来解析小说章节内容。希望这篇文章对你有所帮助，如果你有任何问题或建议，欢迎在评论区留言。