学习了这么久,其实到这里才算是真正意义上的爬虫
对于爬虫,有一个很有意思而且很形象的解释,把互联网当成一张蜘蛛网,那么,每一个网页链接都是 一个节点,这个节点连接这通往其他节点的路,而爬虫,就像是蜘蛛网上的蜘蛛,它能够顺着一个节点爬到另一个节点,只要时间足够长,它就能把整张蜘蛛网爬 完,也就获取到了整个互联网的数据
通过前面对网页源码的分析我们也可以知道,网页源码中带下划线的内容是一些链接,这些链接可以是另一个网站的网 址,也可以是一张图片的网址,通过链接我们可以跳转到其他的网站,其他网站的源码中又有链接,所以,我们可以在很多网页之中跳转,通过RE,我们可以获取 到我们想要的信息
拿我们现在进行的极视界这个实例来说,打开第一个网页会出现一些摄影作品相册的首页和网址,然后点击相册首页可以进入相册,查看相册里面的图片
这里涉及到了两个网页
1. 极视界首页,首页列出了摄影作品的相册网址和相册名字
2. 相册的网址,可以浏览相册的图片
这就要求我们写的爬虫程序能够自动在网页当中跳转并且跳转到正确的页面之后使用RE将图片的网址获取出来,这就是爬虫的意义
所以这一节我们就来看一下怎么使用爬虫实现多级页面的跳转
实际上有很多种办法,但是我一开始想到的只有两个
1. 使用爬虫模拟我们点击网页链接的操作
2. 在首页代码中找出相册的网址,然后读取这个网址的源码再进行分析
第一个看起来很难实现,至少我们现在所学的知识还不能实现,第二个实际上就是进行两次网页源代码的爬取,这个看起来比较容易实现,所以,试试第二种方法
通过前面的分析我们知道,要实现这个功能我们至少需要3个步骤
1. 在第一个页面的源码中找到相册网址的链接
2. 将相册主页作为url传入再进行一次爬取源代码的操作
3. 通过对源码的分析找到图片的URL,并通过RE将URL提取出来