Python爬虫实战 | (9) 爬取搜狗图片

最新推荐文章于 2025-05-03 11:40:11 发布

CoreJT

最新推荐文章于 2025-05-03 11:40:11 发布

阅读量3.3k

点赞数 9

分类专栏： Python3网络爬虫从理论到实践Base 文章标签： Python爬虫实战 requests 搜狗图片

本文链接：https://blog.csdn.net/sdu_hao/article/details/96447155

版权

本篇博客我们将爬取百度图片，输入搜索词，爬取与搜索词相关的图片。

首先打开搜狗图片https://pic.sogou.com/，比如搜索"猫"，此时的URL如下：

https://pic.sogou.com/pics?query=%C3%A8&w=05009900&p=&_asf=pic.sogou.com&_ast=1563449302&sc=index&sut=8710&sst0=1563449302189

如果仅凭借URL来爬取的话，URL中需要体现出搜索词信息以及页数信息，所以我们需要使用下面这个URL(至于这个URL是怎么得到的，目前我也不清楚，先照搬)：

https://pic.sogou.com/pics?query={}&mode=1&start={}&reqType=ajax&reqFrom=result&tn=0

其中第一个{}替换为搜索词，第二个搜索词替换为页数信息。

首先搭建程序主体框架：

import time
import requests
import os
from requests import RequestException
import json


def get_page(u

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CoreJT

关注关注

9
点赞
踩
23

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫实战000：爬取搜狗首页信息

若北辰

08-13

244

1.网络请求模块主要有两个： —urllib模块，比较古老的模块，且用法麻烦 —requests模块，比较新的模块，用法简单，因此主要用这个 2.requests模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。作用：模拟浏览器发请求。如何使用：（requests模块的使用流程） a.指定URL b.发起请求 c.获取响应数据 d.持久化存储（存储到本地或数据库）环境安装： pip install requests import requests i

Python爬虫实战001：爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）

若北辰

08-13

626

# UA:User-Agent(请求载体的身份标识) # UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，则说明 # 该请求是一个正常的请求。但是，如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求是不正常的请求（爬虫） # 则服务器就很有可能拒绝该次请求 # UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器 import requests if __name__ == '__main__': # UA伪装：将对应的Use

3 条评论您还未登录，请先登录后发表或查看评论

python_爬取【搜狗图片】

lanzh_

03-24

6160

1.利用python抓取网站上的图片，对于学习python及对网页数据分析处理很有帮助，也可以学习一些web方面的知识，我尝试使用【搜狗图片】搜索到的图片作为抓取对象，抓取【搜狗图片】主页各个标题栏的图片，以及【其他】输入图片类型的图片，使用tkinter完成了一个简单的UI界面。2.一般抓取网页图片，需要先访问页面，然后提取源码，依次解析各个图片URL，然后直接下载即可，这些网上的教程很多，在此...

python爬取图片-Python爬取网页中的图片（搜狗图片）详解

weixin_37988176的博客

11-01

2638

前言最近几天，研究了一下一直很好奇的爬虫算法。这里写一下最近几天的点点心得。下面进入正文：你可能需要的工作环境：Python 3.6官网下载本地下载我们这里以sogou作为爬取的对象。首先我们进入搜狗图片http://pic.sogou.com/，进入壁纸分类（当然只是个例子Q_Q），因为如果需要爬取某网站资料，那么就要初步的了解它…进去后就是这个啦，然后F12进入开发人员选项，笔者用的是Chro...

python爬取搜狗图片，用于物体识别和样本训练

03-01

python爬取搜狗图片，用于物体识别和样本训练自定义函数def getBaiduImag(category,length,path)，用于采集搜狗图片，三个参数分别为搜索的“关键词”category，采集的图片数量length，保存图片的路径path。自动检索当前下载目录下已有的图片数量，在此基础上再次采集length张图片。需要导入的库文件有import requests、import json、import urllib、import os

python爬取搜狗图片

qq_40405340的博客

08-15

974

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

爬虫实践：爬取搜狗图片

m0_54260276的博客

03-12

2578

前言本文中，将通过爬取搜狗图片为例，分析Ajax请求来抓取网页数据（通过传入关键字，已达到爬取不同类型图片的目的） AJAX引擎其实是一个JavaScript对象，全写是 window.XMLHttpRequest对象，由于浏览器的版本不同，特别是老版本的IE浏览器，虽然也支持AJAX引擎，但是写法上有区别，在IE低版本中通常用 ActiveXObject对象来创建AJAX引擎。 AJAX 来自英文“Asynchronous Javascript And XML” 的缩写，也称为异步JavaScript

python实战项目：搜狗微信文章数据爬取可视化

lyccomcn的博客

06-26

300

这里使用pandas读取数据，读取之后先将发布时间一列转换为pandas的datetime格式，然后在利用datetime的时间访问器dt获取到年份和月份，格式化为“%Y-%m”的形式，再利用pandas的value_counts（）函数对新生成的年月一列进行统计，统计的个数即为该月发表的文章的数量。按下F12召唤出浏览器开发者工具，刷新页面抓包，在network选项卡下找到第一个html文档类型的包，查看该数据包的Response，发现所需数据都在这个包中，请求头信息在Headers中。

[特殊字符]️ Python爬虫实战：绕过验证码保护的网站数据抓取全流程指南

最新发布

2201_76125261的博客

05-03

886

防护手段绕过策略图形验证码图像识别 + 打码平台滑动验证使用滑动模拟算法或第三方打码User-Agent封禁自定义UA池/浏览器驱动IP限制代理池（高匿代理）行为检测Playwright + 模拟人类行为Token校验抓包分析+模拟加密/参数处理本博客从验证码类型出发，详细讲解了如何通过图像识别与自动化操作实现验证码绕过与数据抓取。httpx会话管理第三方打码平台2Captcha数据提取Playwright高级行为模拟在自动化和反爬猫鼠游戏中，策略与工具同样重要。

Spider简单的爬取搜狗图片

11-22

Spider简单的爬取搜狗图片网站中的图片资源并保存到本地。

Python爬虫下载搜狗图片源码

11-10

通过Python写的下载搜狗图片的源码

Python爬虫实战之爬取网站全部图片

02-27

可以直接下载整站的图片代码中使用多线程进行批量下载代码中相关的内容已经加了注释下载的同学应该可以自行修改里面的代码了

python2菜鸟爬虫,Python新手爬虫二：爬取搜狗图片（动态）

weixin_39720003的博客

03-25

356

搜索热词经过上一期爬取豆瓣影评成功后，感觉爬虫还不错，于是想爬点图片来玩玩...先上最后成功的源码(在D盘下创建souGouImg文件夹，直接直接代码即可获取)：importrequestsurllibjsonfromfake_useragentUserAgentdefgetSougouImag(category,length,path):n=lengthcate=categoryimgs_u...

python爬取图片（百度、搜狗、必应）

如云漂泊的博客

02-09

1456

最近抽空学习了python爬虫，为了巩固知识，就顺手写了一个小程序，可以爬取百度、搜狗、必应这三大网站的图片。程序放在github上，地址为：https://github.com/taojianglong/python-crawler 多线程爬取图片github地址为：https://github.com/taojianglong/multi_thread_crawler 下载程序后，解压...

搜狗图片的获取，使用python实现

Derllk的博客

05-24

1531

python 大数据的数据来源数据爬取利器，下面介绍的就是python爬取搜狗的图片我们先分析一下怎么去操作和流程及方式本文免费直播课程分享链接：https://ke.qq.com/course/397896?flowToken=1009460 有需要学习提升的宝宝可以进去免费报名一下 import requests import json import urllib # 三个参数，你要获取...

爬虫------爬取搜狗图片

qq_41671718的博客

10-31

1290

一、单线程 # author:WN # datetime:2019/10/30 9:07 import requests import re def image_urls(): search_name = input("请输入你要搜索的图片:") search_num = int(input("一页有48张图片，需要几页：")) # url存放的总列表 al...

（初学）requests批量爬取搜狗图片

attention2016的博客

09-16

2563

import requests import re import os def getHTMLtext(url): headers = {'user-agent':'Mozilla/5.0'} try: r = requests.get(url, timeout=30, headers=headers) r.raise_for_status() r.encoding = r.ap

python3.7批量爬取百度图片/搜狗图片

sam的博客

04-22

749

from requests_html import HTMLSession import os class BaiDuImg: session = HTMLSession() img_url_regex = '"thumbURL":"{}",' url='' img_url_list =[] def get_search(self): ...

不上浏览器也可以下载美图了（python 批量爬取搜狗图片）

Twinkle_sone的博客

02-27

926

# -*- coding：utf-8 -*-import requests import time import json import os import socket # 设置请求超时时间，防止长时间停留在同一个请求 socket.setdefaulttimeout(8) def sougou_pic_url(num, keyword): pic_url= [] heade...