欢迎加入我们卧虎藏龙的python讨论qq群:729683466
●导 语 ●
在网站上看小说的时候
是不是经常为弹窗广告所烦恼呢
今天分享如何爬取小说
从此摆脱广告烦恼~
代码及相关资源获取
1:关注“python趣味爱好者”公众号,回复“笔趣阁”获取源代码。
2:加入群聊:729683466。在群文件中下载源代码以及相关资料。
效果演示
往期精选
????
开发工具
python3.6.4
第三方库:requests,re
讲解部分
好久没有讲过爬虫了。今天讲一次爬虫。
我们要爬取的是笔趣阁的小说,我们选择了一个最新的小说《黄金领主》进行爬取。
先把网址告诉大家
http://www.biquge.info/10_10530/
首先我们要做的是获取网页信息。
我们用到的是requests第三方库里面的get方法,以此向服务器发送请求。并获得服务器的回复response
base_url='http://www.biquge.info/10_10530/'response=requests.get(url=base_url)#发送请求
然后,我们解析数据,获取其中的章节目录以及href。
这里用到的是re正则表达式。匹配到网页信息里面的href和章节目录。
url_list=re.findall('<dd><a href="(.*?)" title="(.*?)">.*</a></dd>',html)
其中(.*?)就是我们要提取的信息。
我们需要提取的是href和title,所以我们在相应的位置用(.*?)代替。
其中的href与base_url连接起来就是小说正文的网址。
然后,我们用requests获取正文网址的网页信息。
得到的中文字符有些是乱码,这时候,我们需要用encoding修改成utf-8的编码格式。
然后哦我们看到的就是正常的中文字符。
我们在用re正则表达式匹配到其中的正文。
最后要做的,是将得到的正文保存到本地文件夹中,我们用到的保存方式是以txt格式保存。
在当前目录下新建一个“黄金领主”文件夹,将所有章节的小说全部保存在这个目录下。
with open('黄金领主\\'+title+'txt',mode='w',encoding='utf-8') as f: f.write(text)
最后就完成了小说的爬取。
不但免除了广告的烦恼
还不用担心妈妈断网(bushi
快快上手学起来!
本期分享到此结束
很高兴你能看到最后
作者|齐
编辑|潇洒哥
感谢大家观看
有钱的老板可打赏一下小编哦
扫描二维码
关注我们
QQ群:729683466
◰
参考来源
封面来源:https://www.pexels.com/search/book/