前面介绍的scrapy爬虫只能爬取单个网页。如果我们想爬取多个网页。比如网上的小说该如何如何操作呢。比如下面的这样的结构。是小说的第一篇。可以点击返回目录还是下一页
对应的网页代码:
我们再看进入后面章节的网页,可以看到增加了上一页
对应的网页代码:
通过对比上面的网页代码可以看到. 上一页,目录,下一页的网页代码都在
下的
元素的href里面。不同的是第一章只有2个
元素,从二章开始就有3个
元素。因此我们可以通过
下