前提
爬取页面中的最新壁纸的所有图片,并以图片分类的名称保存在相应的文件夹下
页面分析
1.整体页面:
请求第一个页面的地址:http://sj.zol.com.cn/bizhi/new_1.html
点击下一页,发现第二个页面的地址:http://sj.zol.com.cn/bizhi/new_2.html
由此可以看出,想要爬取指定页面,传递相应的数字给new_后面的数字即可,如果想要爬取某一页到某一页,可以加个循环,依次传递即可
2.图片分类
1)首先发现页面上的图片并不只是一张,而是一类,每一个图片库有很多张图片,这样的结构我们就不能直接通过请求页面然后直接获取图片地址下载,这样爬取的结果只会有一张(就是这些封面图),不符合我们的需求
2)点击某一个图片分类进去,下方的为该类下的所有图片