爬取“笔趣阁”小说

最新推荐文章于 2024-07-12 13:22:52 发布

剑心211

最新推荐文章于 2024-07-12 13:22:52 发布

阅读量1.6k

点赞数 1

文章标签： html 正则表达式 css svg eclipse

本文链接：https://blog.csdn.net/qq_42680814/article/details/107572883

版权

欢迎加入我们卧虎藏龙的python讨论qq群：729683466

●导语 ●

在网站上看小说的时候

是不是经常为弹窗广告所烦恼呢

今天分享如何爬取小说

从此摆脱广告烦恼~

代码及相关资源获取

1：关注“python趣味爱好者”公众号，回复“笔趣阁”获取源代码。

2：加入群聊：729683466。在群文件中下载源代码以及相关资料。

效果演示

往期精选

python聊天机器人

????

开发工具

python3.6.4

第三方库：requests,re

讲解部分

好久没有讲过爬虫了。今天讲一次爬虫。
我们要爬取的是笔趣阁的小说，我们选择了一个最新的小说《黄金领主》进行爬取。

先把网址告诉大家

http://www.biquge.info/10_10530/

首先我们要做的是获取网页信息。

我们用到的是requests第三方库里面的get方法，以此向服务器发送请求。并获得服务器的回复response

base_url='http://www.biquge.info/10_10530/'response=requests.get(url=base_url)#发送请求

然后，我们解析数据，获取其中的章节目录以及href。

这里用到的是re正则表达式。匹配到网页信息里面的href和章节目录。

url_list=re.findall('<dd><a href="(.*?)" title="(.*?)">.*</a></dd>',html)

其中(.*?)就是我们要提取的信息。

我们需要提取的是href和title，所以我们在相应的位置用(.*?)代替。

其中的href与base_url连接起来就是小说正文的网址。

然后，我们用requests获取正文网址的网页信息。

得到的中文字符有些是乱码，这时候，我们需要用encoding修改成utf-8的编码格式。

然后哦我们看到的就是正常的中文字符。

我们在用re正则表达式匹配到其中的正文。

最后要做的，是将得到的正文保存到本地文件夹中，我们用到的保存方式是以txt格式保存。

在当前目录下新建一个“黄金领主”文件夹，将所有章节的小说全部保存在这个目录下。

        with open('黄金领主\\'+title+'txt',mode='w',encoding='utf-8') as f:            f.write(text)

最后就完成了小说的爬取。

不但免除了广告的烦恼

还不用担心妈妈断网（bushi

快快上手学起来！

本期分享到此结束

很高兴你能看到最后

作者|齐

编辑|潇洒哥

感谢大家观看

有钱的老板可打赏一下小编哦

扫描二维码

关注我们

QQ群：729683466

◰

参考来源

封面来源：https://www.pexels.com/search/book/

剑心211

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫