最近学了爬虫,想找点感兴趣的东西来爬,就有了这篇文章,目前我也尚处于小白阶段,欢迎大家讨论。
本文实现了利用python批量爬取unsplash图片,主要用到了requests、json、os、time库,IDE使用pycharm,效率大概是每分钟爬取4-10张高清图(一张10M左右,下载速度取决于图片大小还有网速)。
首先,打开要爬取的网页:https://unsplash.com/,这是一个动态网页(如何准确判断静态和动态网页,文末有TIPS),按下F12找不到要爬取的图片链接。
按下F12,选择Network - XHR,向下滑动左侧要爬取的网页(耐心点要滑动好一会),逐渐的就会发现空白页面Name下出现了photo?page开头的一行内容,如下:
选中这一行,出现页面,选中Headers,将requests URL复制到浏览器打开,我们看到了&#