python超简单超基础的免费小说爬虫

最新推荐文章于 2024-06-28 10:41:11 发布

黑色Black

最新推荐文章于 2024-06-28 10:41:11 发布

阅读量804

点赞数 3

文章标签： python 爬虫

本文链接：https://blog.csdn.net/mo_long_dada/article/details/109232312

版权

这篇博客介绍了如何使用Python进行简单的网络小说爬取。首先，你需要Python 3及requests、os和re库。选择一个免费小说网站，通过查看源代码分析章节链接结构。然后，将章节链接存入列表，逐个访问获取内容并写入文档。最后，作者分享了实现的代码，并指出这种方法适用于小型、免费网站，对于复杂的收费网站则需要更高级的解析技术。作为一个萌新的初次尝试，作者欢迎读者提出改进建议。

摘要由CSDN通过智能技术生成

python超简单超基础的免费小说爬虫

需要准备的环境

1.python 3.0及以上皆可
2.requests库，os，re

选取网页

找一个免费的小说网站，我在这里拿http://www.zanghaihua.org/wanlishiwunian/ 来举例子

思路

1.首先来看看网页的结构
右键网页，点击“查看网页源代码”

不难发现看到章节链接的格式都是</span><span> <a href="章节网址">章节名称</a>
在这里插入图片描述
随便点开一个章节，进入小说内容页面，然后再去看看源代码

还是不难发现文本的结构是<div class="bookcontent clearfix" id="BookText">内容<br/><br/><div

我们可以把爬取每个章节链接存到一个列表里面，再让python再次访问这个链接去爬取内容，最后写入文档，接下来直接上代码，注释我都写好了。

”我看你就是讲不懂才直接上代码的“
闭嘴[滑稽]

代码

#导入库
import requests
import os
import re

#定义请求协议头
headers = {
   

'accept': '*/*',
'accept-encoding': 'gzip, deflate, br'

最低0.47元/天解锁文章

黑色Black

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫