一、目标
排行榜的地址:http://www.qu.la/paihangbang/
注:文末有福利!
找到各类排行旁的的每一部小说的名字,和在该网站的链接。
二、观察网页的结构
很容易就能发现,每一个分类都是包裹在:
<div class="index_toplist mright mbottom">
之中,
这种条理清晰的网站,大大方便了爬虫的编写。
在当前页面找到所有小说的连接,并保存在列表即可。
三、列表去重的小技巧:
就算是不同类别的小说,也是会重复出现在排行榜的。
这样无形之间就会浪费很多资源,尤其是在面对爬大量网页的时候。
这里只要一行代码就能解决:
url_list = list(set(url_list))
这里调用了一个list的构造函数set:这样就能保证列表里没有重复的元素了。
四、代码实现
模块化,函数式编程是一个非常好的习惯,坚持把每一个独立的功能都写成函数,这样会使代码简单又可复用。
1.网页抓取头: