爬取-搜狗图片

最新推荐文章于 2024-04-28 17:07:53 发布

木易依

最新推荐文章于 2024-04-28 17:07:53 发布

阅读量4.7k

点赞数 3

分类专栏： Python

本文链接：https://blog.csdn.net/Noonebirdyou/article/details/99672632

版权

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

这里我们使用搜狗图片来进行爬取，首先打开搜狗图片网址： https://pic.sogou.com/

在这里插入图片描述

接着在页面上右键–>审查，或者F12选择Network项

在这里插入图片描述

然后在页面搜索框输入自己感兴趣的关键字并执行搜索，这里我以中国建筑工人为例，可以发现，页面上并没有页码选择，图片是通过鼠标向下滚动时动态加载的，尝试往下滚动鼠标可以在右侧栏中发现我们需要的东西，随便打开一个比如说第一个来查看：

在这里插入图片描述

会发现在response中即为我们需要的，将内容复制出并使用JSON格式化工具打开，可以看出items中每个元素中的pic_url即为页面上每张图片的源地址

在这里插入图片描述

再查看每个请求的Request URL可以知道如何发送请求，可以得到URL为：

https://pic.sogou.com/pics?query=%D6%D0%B9%FA%BD%A8%D6%FE%B9%A4%C8%CB&mode=1&start=48&reqType=ajax&reqFrom=result&tn=0，可以看出其中的start来控制每次请求的开始位置

在这里插入图片描述

好了，接下来只需要每次发送请求指定位置开始的URL，然后获取响应中图片的源地址并下载即可

import time
import random
import socket
# 设置请求超时时间，防止长时间停留在同一个请求
socket.setdefaulttimeout(20)

def pullImgfFromSoGou(category, num, path):
    count = 0
    for i in range(num//48):
        n = i + 1
        url = 'https://pic.sogou.com/pics?query='+category+'&mode=1&start='+str(n*48)+'&reqType=ajax&reqFrom=result&tn=0'
        imgs = requests.get(url)
        jd = json.loads(imgs.text)
        jd = jd['items']
        imgs_url = []
        for j in jd:
            imgs_url.append(j['pic_url'])
        for img_url in imgs_url:
            print('***** '+str(count)+'.jpg *****'+'   Downloading...')
            try:
                urllib.request.urlretrieve(img_url, path+str(count)+'.jpg')
            # 请求时可能会出现404HttpError，或者连接重置等等异常导致程序突出，这里直接采用Exception进行处理，出现了异常只需要跳过进行下一张的下载即可
            except Exception:
                continue
            finally:
                count += 1
                # 休息数秒，预防IP被禁
                time.sleep(random.randint(0, 3)+random.random())
            # 每批次下载完成多休息几秒
            time.sleep(10*random.randint(1,5))
    print('Download complete!')

if __name__ == '__main__':
    pullImgfFromSoGou('中国建筑工人', 10000, 'E:/Data/Hat/')