上一讲我们说了如何把网页的数据通过分析后存储到数据库,我们这次讲如何将网页上的图片提取并下载到本地。
思路如下:
我们本次要爬取的是昵图网首页的图片。
1、首先分析我们要爬取的网页的代码结构,每个网页的代码结构都不大一样,所以要做好分析。
我们进入昵图网的首页,http://www.nipic.com/index.html
按F12开启浏览器的调试模式,可以通过鼠标看到图片的后台代码:点击调试的小箭头,然后点击对应的图片,既可以看到图片在页面上对应的编码。
或者,直接“查看源代码”就可以看到整个网页的源码
我们可以在源代码界面看到很多.jpg结尾的图片
我们可以直接通过查找来查看到底有多少张图片在页面上,我本次用的是360浏览器,每个浏览器的使用方法大同小异。
查找的快捷方式是Ctrl+F 同时按住两个按