大家好,我是Python进阶者。
前言
前几天【磐奚鸟】大佬在群里分享了一个抓取小说的代码,感觉还是蛮不错的,这里分享给大家学习。
一、小说下载
如果你想下载该网站上的任意一本小说的话,直接点击链接进去,如下图所示。
只要将URL中的这个数字拿到就可以了,比方说这里是951,那么这个数字代表的就是这本书的书号,在后面的代码中可以用得到的。
二、具体实现
这里直接丢大佬的代码了,如下所示:
程序运行之后,在控制台输入书号,即可开始进行抓取了。
在本地也会自动新建一个书号命名的文件夹,在该文件夹下,会存放小说的章节,如下图所示。
三、常见问题
在运行过程中小伙伴们应该会经常遇到这个问题,如下图所示。
这个是因为访问太快,网站给你反爬了。可以设置随机的user-agent或者上代理等方法解决。
四、总结
我是Python进阶者。这篇文章主要给大家介绍了小说内容的获取方法,基于网络爬虫,通过requests爬虫库和bs4选择器进行实现,并且给大家例举了常见问题的处理方法。
小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。