运用python3 爬取盗版小说——一个最简单的爬虫

声明:本文只作为技术交流,看小说,请支持正版。

 

一次在网吧玩,看到旁边人在盗版网站上网络小说,多瞄了几眼,记下了网站,既然正好在学python,就拿它练练手。这样的小说网站没有APP,只能通过网页看,而且广告非常多,当然这就是他们的盈利手段。一般这样的盗版小说的结构非常简单,直接废话不多说,开始工作。


1.    获取一章的内容

这次是拿 笔趣阁http://www.biqukan.cc/ 这个网站开刀。

就以《神棍》——小楼独坐(书籍主页http://www.biqukan.cc/book/20461/ )作例子。不过还是那句话,请支持正版。


这个书籍的主页可以找到已经更新的任意一章,也就是说,这个页面其实包含了这本书每一章的URL。点开第一章,去到小说正文,查看网页源代码,由于这个网页做的非常简单,一看源代码能马上找到正文部分。






这样问题就变得简单了,也就是说我们只要拿到网站的源代码,就相当于拿到了正文。

获取网站的源代码有多个模块可以用,我比较常用的是requests 这个模块。(若之前没有安装这个模块的,可以通过在命令

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值