我不知道哪些图片的格式可以通过
urllib.request.urlretrieve(item[‘pic’], picpath)
来抓取,但是,.svg这种比较流行的图片格式肯定是不行的,
另外,那些虽然可以在网址上访问的但是没有http协议的也是爬不下来的,
比如:
//cdn.cnn.com/cnnnext/dam/assets/150406204033-lgct-venue-on-miami-beach-medium-plus-169.jpg
如果在它前面加上网站域名,比如改写为:
https://cdn.cnn.com/cnnnext/dam/assets/150406204033-lgct-venue-on-miami-beach-medium-plus-169.jpg
并且还是这张图,就很舒服。