python3爬取笔趣阁小说

最新推荐文章于 2025-04-01 09:59:52 发布

K_CEN

最新推荐文章于 2025-04-01 09:59:52 发布

阅读量1.2k

点赞数 1

分类专栏：爬虫文章标签：爬虫 python python3

本文链接：https://blog.csdn.net/K_CEN/article/details/95964425

版权

本文介绍了如何使用Python3爬取笔趣阁网站上的小说信息，包括确定目标URL、分析网站结构以及编写爬虫代码。需要注意的是，由于全量爬取可能导致IP被封，实际操作时需考虑策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫第一步：确定要爬取的信息
确定要爬取的网站的URL地址：http://www.xbiquge.la/6/6818/
在这里插入图片描述
第二步：分析网站信息
爬小说要获取小说章节目录名称和每一章的阅读链接

第三步：编写代码：
本次爬虫练习完整代码，存在缺陷，小说章节过多的话爬虫可能会被封Ip

import requests
import re
from lxml import etree
import os
import time


def get_html():
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
    }
    # 小说目录URL，改变这个URL就可以下载对应的小说
    url = 'http://www.xbiquge.la/6/6818/'
    html = requests.get(url, headers=headers).content.decode('utf-8')
    return html

def get_novel_url(html)