爬取“笔趣阁”小说

欢迎加入我们卧虎藏龙的python讨论qq群:729683466

导 语 ●

在网站上看小说的时候

是不是经常为弹窗广告所烦恼呢

今天分享如何爬取小说

从此摆脱广告烦恼~

代码及相关资源获取

1:关注“python趣味爱好者”公众号,回复“笔趣阁”获取源代码

2:加入群聊:729683466。在群文件中下载源代码以及相关资料。

  

效果演示

往期精选

python聊天机器人

 ????

开发工具

python3.6.4

第三方库:requests,re

讲解部分

好久没有讲过爬虫了。今天讲一次爬虫。
我们要爬取的是笔趣阁的小说,我们选择了一个最新的小说《黄金领主》进行爬取。

先把网址告诉大家

http://www.biquge.info/10_10530/

首先我们要做的是获取网页信息。

我们用到的是requests第三方库里面的get方法,以此向服务器发送请求。并获得服务器的回复response

base_url='http://www.biquge.info/10_10530/'response=requests.get(url=base_url)#发送请求

然后,我们解析数据,获取其中的章节目录以及href。

这里用到的是re正则表达式。匹配到网页信息里面的href和章节目录。

url_list=re.findall('<dd><a href="(.*?)" title="(.*?)">.*</a></dd>',html)

其中(.*?)就是我们要提取的信息。

我们需要提取的是href和title,所以我们在相应的位置用(.*?)代替。

其中的href与base_url连接起来就是小说正文的网址。

然后,我们用requests获取正文网址的网页信息。

得到的中文字符有些是乱码,这时候,我们需要用encoding修改成utf-8的编码格式。

然后哦我们看到的就是正常的中文字符。

我们在用re正则表达式匹配到其中的正文。

最后要做的,是将得到的正文保存到本地文件夹中,我们用到的保存方式是以txt格式保存。

在当前目录下新建一个“黄金领主”文件夹,将所有章节的小说全部保存在这个目录下。

        with open('黄金领主\\'+title+'txt',mode='w',encoding='utf-8') as f:            f.write(text)

最后就完成了小说的爬取。


不但免除了广告的烦恼

还不用担心妈妈断网(bushi

快快上手学起来!

本期分享到此结束

很高兴你能看到最后

作者|齐

编辑|潇洒哥

感谢大家观看

有钱的老板可打赏一下小编哦

扫描二维码

关注我们

QQ群:729683466

◰  

参考来源

封面来源:https://www.pexels.com/search/book/

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值