Python零基础爬虫项目，采集小说网站整站数据

最新推荐文章于 2024-08-03 14:18:54 发布

Python_sn

最新推荐文章于 2024-08-03 14:18:54 发布

阅读量415

点赞数

文章标签： python Python编程编程语言 Python爬虫网络爬虫

本文链接：https://blog.csdn.net/Python_sn/article/details/109468206

版权

本文介绍了如何使用Python进行网络爬虫，通过requests和lxml库抓取小说网站的数据，包括小说名字、作者名、分类、章节及内容。在遇到URL参数规律不一致的问题时，采取抓取目录页面所有章节链接的方法。最后，将数据写入txt文件，便于阅读。

摘要由CSDN通过智能技术生成

声明:本文只做学习使用，禁止用作非法途径，一切因为爬虫技术使用不当造成的不良后果皆与本人无关

requests库
lxml库下的etree模块
requests库下的RequestException类
很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！??¤
QQ群：623406465

网站 http://www.aixiawx.com

首先我们要确定要得到什么数据

(一)构建请求头

headers = {
    'User-Agent': '****************',#可填入自己的
}
base_url = 'http://www.aixiawx.com/27/27010/'

(二)分析URL参数规律
在这里插入图片描述

随便打开一个小说的章节，由此可见这个url参数是递增的是吧。
但是最开始的时候我观察到在这里的url是有递增规律的，就没有多看几眼，然后使用了遍历就发生了Error。
最终我测试发现部分章节不符合规律，所以不能使用这个方法来遍历url。
这样怎么办呢？

在目录页面拥有所有章节的url链接
可以抓取章节页面的url使之形成一个列表，然后遍历该列表，即可获取每个章节的链接

根据章节的数量判断，<dd>标签一个是最合适的选择标签，所以我们使用<dd>标签来做获取章节链接的顶级索引

代码如下:

def analysis_catalogue(catalogue_html: "目录HTML文档"):
    '''
    解析目录HTMl文档
    获取小说章节链接
    对章节链接排序
    '''
     html = etr

关注