声明:本文只作为技术交流,看小说,请支持正版。
一次在网吧玩,看到旁边人在盗版网站上网络小说,多瞄了几眼,记下了网站,既然正好在学python,就拿它练练手。这样的小说网站没有APP,只能通过网页看,而且广告非常多,当然这就是他们的盈利手段。一般这样的盗版小说的结构非常简单,直接废话不多说,开始工作。
1. 获取一章的内容
这次是拿 笔趣阁http://www.biqukan.cc/ 这个网站开刀。
就以《神棍》——小楼独坐(书籍主页http://www.biqukan.cc/book/20461/ )作例子。不过还是那句话,请支持正版。
这个书籍的主页可以找到已经更新的任意一章,也就是说,这个页面其实包含了这本书每一章的URL。点开第一章,去到小说正文,查看网页源代码,由于这个网页做的非常简单,一看源代码能马上找到正文部分。
这样问题就变得简单了,也就是说我们只要拿到网站的源代码,就相当于拿到了正文。
获取网站的源代码有多个模块可以用,我比较常用的是requests 这个模块。(若之前没有安装这个模块的,可以通过在命令