亚马逊的狗狗
起初写这篇文章是苦于亚马逊老是打不开阻碍了工作进度,百无聊奈准备数数狗狗打发时间。
但狗狗的出现是随机的,最开始找还很快乐,每只狗狗都很有趣,这个操作到后面既要花时间刷新网页、截图、命名,还要搜寻记忆,避免重复,着实不再快乐。。。
好在,有个爬虫大佬也在摸鱼,正好就聊到这个话题,很快他就找到了网址的规律(为什么我没有想到,这就是跟大佬的差距嘛):
这是亚马逊狗狗图片的网址:
src = "https://images-na.ssl-images-amazon.com/images/G/01/error/" + (Math.floor(Math.random() * 43) + 1) + "._TTD_.jpg"
换个方法找狗狗
找到方法就简单了,起初我们发现500是有照片的,后续发现500跟1是同一张狗狗,并且前后不再有狗狗图片,最终确定范围在1-200:
爬取代码如下,注意需要梯子:
# 爬取亚马逊报错页的狗狗图片
# 需要有效的代理才能打开网页
import requests
#图片链接
for i in range(200):
#print(i+1)
image_url= "https://images-na.ssl-images-amazon.com/images/G/01/error/%s._TTD_.jpg"%(i+1)
print(image_url)
headers ={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
r = requests.get(image_url,headers=headers)
# 下载图片
# 二进制数据需要用r.content 进行提取
# 将图片放在‘图库’文件夹下,‘图库’是文件夹的名称,将图片放入该文件夹中,该文件夹与py文件在同一目录下
f = open(r"E:\狗狗/%s.jpg"%(i+1),'wb')
f.write(r.content)
f.close()
结果:
部分狗狗写真请欣赏下面的照片
现在又有了另外一个问题,狗狗名字的提取,emmm,快下班了,请听下回分解。
狗狗图片–手动查找
先这些,后续待更新
Rocket
Milly
Frank
RoRo
Duke
Brandi
Rupert
Rufus
Meela
Sheriff
Ranger & Remi
Bailey
Lola
Mae
Tanq
Barkley & Emma
##cBarkley
Shadow
Barney
Kodak
Martini
Miss Chief
Lucy
Jax
Cannoli
Bowser
Robin
Mae
Hunter
Butters & Marge
Reek
Jaja
Oliver
Clancy
Corbin
Thomas
Talula
参考链接: Meet some of the dogs who help make Amazon a great place to work