python爬虫，爬取百度图片

最新推荐文章于 2024-09-12 03:45:44 发布

a_hotpot

最新推荐文章于 2024-09-12 03:45:44 发布

阅读量5.3k

点赞数 9

分类专栏： python学习

本文链接：https://blog.csdn.net/lsy_07/article/details/80950189

版权

本文记录了作者在使用Python爬虫抓取百度图片时遇到的问题，包括动态加载的图片URL解析、正则表达式筛选图片源地址、处理缺失格式的图片链接以及未找到图片总数的解析方法。作者分享了自己的解决策略和代码片段。

摘要由CSDN通过智能技术生成

这两天尝试在爬取百度图片时，遇到了不少坑，有几处问题还不太明白，先记录下来，待日后解决。

问题如下：

1. 百度图片的网页有两种：

http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&oe=utf-8&word=people&fp=result&

http://image.baidu.com/search/flip?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&oe=utf-8&word=people&fp=result&

两者只有加下划线的部分不同，但是关键字为index的url图片是动态加载的，使用xpath无法解析到图片的链接地址

关键字为flip的是固定页面，每页显示固定张数的图片，但是从浏览器端看到只有30张，但是通过requests.get获取到的图片url却有60个，不是很理解这一点。

我写的爬虫使用的是解析关键字为flip的url

2. 在获取到html.text后，通过正则表达式来筛选出图片的源地址

re.findall('"objURL":"(.*?)",', html, re.S)

这一句是借鉴了其他人的写法&#x

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a_hotpot

关注关注

9
点赞
踩
45

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫自动爬取图片并保存

m0_60964321的博客

01-01

3万+

一、准备工作用python来实现对某图片的爬取并保存，以情绪图片为例，搜索可得到下图所示f12打开源码在此处可以看到这次我们要爬取的图片的基本信息是在img - scr中二、代码实现这次的爬取主要用了如下的第三方库简单构思可以分为三个小部分1.获取网页内容2.解析网页3.保存图片至相应位置下面来看第一部分：获取网页内容是不是so easy第二部分解析网页才是大头来看代码这里就运用到了BeautifulSoup以及re正则表达式的相关知识，需要有一定的基础哦下面就是第三部分：保存图片各

python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片

weixin_33572707的博客

02-04

1138

当我们想要获取百度图片的时候，面对一张张图片，一次次的点击右键下载十分麻烦。python爬虫可以实现批量下载，根据我们下载网站位置、图片位置、图片下载数量、图片下载位置等需求进行批量下载，本文演示python爬虫批量爬取百度图片的代码过程。1、导入相关库importrequests#爬虫库importre#正则表达式库importos#系统库importtime#时间库2、确定百度图片链接...

1 条评论您还未登录，请先登录后发表或查看评论

python爬取图片并保存到本地

weixin_30293135的博客

12-18

3672

Python爬取图片(你懂得) requests与Bs4 这两个模块是本文使用的主要模块，requests可以获取连接，bs4全名BeautifulSoup，是编写python爬虫常用库之一，主要用来解析html标签。这两个模块可以通过cmd终端下载 pip install bs4 pip install requests 代码实现 import ...

python 电影网站爬虫项目_python电影网站

最新发布

2401_86449728的博客

09-12

4242

book = xlwt.Workbook(encoding=“utf-8”,style_compression=0) # style_compression样式压缩效果。col = (“电影详情链接”,“封面链接”,“影片中文名”,“影片外国名”,“评分”,“评价数”,“概况”,“相关信息”,“”) # 列属性。html = response.read().decode(“utf-8”) # 读取response。if hasattr(e,“reason”): # 输出没有捕获成功的原因。

python爬取一张图片并保存_python爬取网页图片并保存到本地

weixin_39755873的博客

11-20

415

先把原理梳理一下：首先我们要爬取网页的代码，然后从中提取图片的地址，通过获取到的地址来下载数据，并保存在文件中，完成。下面是具体步骤：先确定目标，我挑选的是国服守望先锋的官网的英雄页面，我的目标是爬取所有的英雄的图片页面是这样的首先做的就是得到它的源代码找到图片地址在哪里这个函数最终会返回网页代码def getHtml(url):html = requests.get(url)return htm...

python爬虫爬取图片并保存

qq_39697564的博客

09-19

2328

今天爬了美丽说网站首页的图片可是等把图片的url获取之后却不知道怎么保存了。。（感觉自己当时脑子短路了）然后自己上网查看了一些方法。。 1.网上有说 urllib模块中有个urlretrieve函数可以直接下载保存，于是我天真的写了urllib.urlretrieve(pic,fliename)可是pycharm报错了说urllib没有urlretrieve函数，瞬间懵了。 2.之后自...

Python爬取图片并保存

weixin_40039983的博客

09-30

468

import requests m=1 url = "https://www.baidu.com" #图片地址 r = requests.get(url,stream=True) with open("pic//"+str(m)+".jpg", "wb") as fd: for chunk in r.iter_content(): fd.write(chunk) print(m)

python爬虫爬取百度图片

01-02

python爬虫爬取百度图片

python爬虫爬取百度图片并保持到本地

m0_68165821的博客

07-01

976

python爬虫爬取百度图片并保持到本地。

python爬虫爬取百度贴吧的图片

02-22

在这个实例中，我们将关注如何利用Python爬虫来抓取百度贴吧的图片。首先，我们需要了解百度贴吧的基本结构。百度贴吧是一个基于关键词的主题讨论区，用户可以在特定的“贴吧”内发布帖子、图片、评论等。每个贴吧...

Python-002-爬取图片并保存

生于忧患，死于安乐

05-15

333

python-学习-002-爬取图片并保存-2020-5-15 import requests import os i=19000000 while i<20000000: url='http://xxxxxxxxxx/cet/img/img/'+str(i)+'.jpg' #图片地址 print(url) i = i+ 1 root="E://19//" #路径 path=root+url.split('/')[-1] try: if not os.path.ex

【Python】爬取图片并保存到本地

Get your hands dirty

05-05

908

本项目主要用到的库 requests BeautifulSoup os 本项目练习目的熟悉爬虫常用的requests、BeatifulSoup库学习图片自动保存到本地的方法 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import tim...

Python爬取网站图片并保存，超级简单

weixin_46174854的博客

01-31

6588

Python爬取网站图片并保存，超级简单第一步，导入模块 import requests from bs4 import BeautifulSoup requests用来请求html页面，BeautifulSoup用来解析html 第二步，获取目标html页面 hd = {'user-agent': 'chrome/10'} # 伪装自己是个(chrome)浏览器=-= def download_all_html(): try: url = 'https://www.bil

Python爬取图片并存储

12-31

665

''' 思路：从缩略图页面开始爬取 1) 先爬取所有缩略图的a标签 2) 3) ''' import requests from bs4 import BeautifulSoup import os if not os.path.exists("男神图集"): os.makedirs("男神图集") import lxml from urllib import request url...

【python爬虫】图片的爬取与保存

loongkingwhat的博客

11-22

3517

一. 写在前面前端页面的展示通常是是在html文件当中嵌入图片url，爬取图片其实就分为以下几个部分： S1. 解析html页面获取图片url S2. 通过图片url将图片保存至本地下面分别进行讲解。二. HTML页面解析 HTML的解析主要是使用美味汤BeautifulSoup，关于美味汤的教程可以参考北京理工大学嵩天老师在中国大学MOOC上的Python爬虫课程。以下是不是视频课程的...

python爬虫项目2：爬取图片并保存

weixin_44595372的博客

02-19

1317

下载http://pic.yxdown.com/list/0_0_4.html网站图片并保存：用到的库：requests,beautifulsoup import requests import re from bs4 import BeautifulSoup #设置初始url baseurl='http://pic.yxdown.com/list/' urls=[] #拼接前20页的url ...

Python爬虫实战：图片爬取与保存

2301_78096295的博客

07-22

1967

Python爬虫在数据抓取和图片下载方面非常有用。下面，我将详细讲解如何使用Python的requests库来请求网页内容，并使用库来解析HTML页面，最后使用或requests库来下载并保存图片。

Python爬虫学习——爬取图片并保存（十一）

戚晨夕的博客

02-13

2243

Python爬虫学习文章目录Python爬虫学习一、查看二、具体实现总结一、查看 1、查看页面源代码是否有相关信息 2、一般得图片都包含子页面链接 3、提取子页面链接 4、获取下载链接二、具体实现 import requests from bs4 import BeautifulSoup import time domain='https://unsplash.com/' url='https://unsplash.com/t/3d-renders' resp=requests.get(url) #p