爬取-搜狗图片

这里我们使用搜狗图片来进行爬取,首先打开搜狗图片网址: https://pic.sogou.com/

在这里插入图片描述

接着在页面上右键–>审查,或者F12选择Network项

在这里插入图片描述

然后在页面搜索框输入自己感兴趣的关键字并执行搜索,这里我以中国建筑工人为例,可以发现,页面上并没有页码选择,图片是通过鼠标向下滚动时动态加载的,尝试往下滚动鼠标可以在右侧栏中发现我们需要的东西,随便打开一个比如说第一个来查看:

在这里插入图片描述

会发现在response中即为我们需要的,将内容复制出并使用JSON格式化工具打开,可以看出items中每个元素中的pic_url即为页面上每张图片的源地址

在这里插入图片描述

再查看每个请求的Request URL可以知道如何发送请求,可以得到URL为:
https://pic.sogou.com/pics?query=%D6%D0%B9%FA%BD%A8%D6%FE%B9%A4%C8%CB&mode=1&start=48&reqType=ajax&reqFrom=result&tn=0,可以看出其中的start来控制每次请求的开始位置

在这里插入图片描述

好了,接下来只需要每次发送请求指定位置开始的URL,然后获取响应中图片的源地址并下载即可
import time
import random
import socket
# 设置请求超时时间,防止长时间停留在同一个请求
socket.setdefaulttimeout(20)

def pullImgfFromSoGou(category, num, path):
    count = 0
    for i in range(num//48):
        n = i + 1
        url = 'https://pic.sogou.com/pics?query='+category+'&mode=1&start='+str(n*48)+'&reqType=ajax&reqFrom=result&tn=0'
        imgs = requests.get(url)
        jd = json.loads(imgs.text)
        jd = jd['items']
        imgs_url = []
        for j in jd:
            imgs_url.append(j['pic_url'])
        for img_url in imgs_url:
            print('***** '+str(count)+'.jpg *****'+'   Downloading...')
            try:
                urllib.request.urlretrieve(img_url, path+str(count)+'.jpg')
            # 请求时可能会出现404HttpError,或者连接重置等等异常导致程序突出,这里直接采用Exception进行处理,出现了异常只需要跳过进行下一张的下载即可
            except Exception:
                continue
            finally:
                count += 1
                # 休息数秒,预防IP被禁
                time.sleep(random.randint(0, 3)+random.random())
            # 每批次下载完成多休息几秒
            time.sleep(10*random.randint(1,5))
    print('Download complete!')

if __name__ == '__main__':
    pullImgfFromSoGou('中国建筑工人', 10000, 'E:/Data/Hat/')
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值