python超简单超基础的免费小说爬虫

这篇博客介绍了如何使用Python进行简单的网络小说爬取。首先,你需要Python 3及requests、os和re库。选择一个免费小说网站,通过查看源代码分析章节链接结构。然后,将章节链接存入列表,逐个访问获取内容并写入文档。最后,作者分享了实现的代码,并指出这种方法适用于小型、免费网站,对于复杂的收费网站则需要更高级的解析技术。作为一个萌新的初次尝试,作者欢迎读者提出改进建议。
摘要由CSDN通过智能技术生成

python超简单超基础的免费小说爬虫

需要准备的环境

1.python 3.0及以上皆可
2.requests库,os,re

选取网页

找一个免费的小说网站,我在这里拿http://www.zanghaihua.org/wanlishiwunian/ 来举例子

思路

1.首先来看看网页的结构
右键网页,点击“查看网页源代码”
右键网页,点击“查看网页源代码”
不难发现看到章节链接的格式都是</span><span> <a href="章节网址">章节名称</a>
在这里插入图片描述
随便点开一个章节,进入小说内容页面,然后再去看看源代码
在这里插入图片描述
还是不难发现文本的结构是<div class="bookcontent clearfix" id="BookText">内容<br/><br/><div

我们可以把爬取每个章节链接存到一个列表里面,再让python再次访问这个链接去爬取内容,最后写入文档,接下来直接上代码,注释我都写好了。

”我看你就是讲不懂才直接上代码的“
闭嘴[滑稽]

代码

#导入库
import requests
import os
import re

#定义请求协议头
headers = {
   

'accept': '*/*',
'accept-encoding': 'gzip, deflate, br'
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值