python爬虫——获取糗事百科多个页面上的图片
1. 需求:
获取糗事百科上热图专栏上的所有图片
2. 分析&代码实现:
(1)单个图片获取
首先,进入到糗事百科热图专栏,获取图片的地址信息,打开
https://pic.qiushibaike.com/system/pictures/12337/123375434/medium/QYXU9TS6VGP54HBK.jpg
再使用python编程,获取图片,保存到本地
import requests
if __name__ == "main":
url = ''
headers = {
'User-Agent':'Mozilla/....'
}
# content返回的是二进制形式的图片数据,text返回字符串形式的,json()返回字典对象类型形式的数据
image_data = requests.get(url=url).content
with open('./qiutu.jpg','wb') as fp:
fp.write(iamge_data)
- 知识点:
content返回的是二进制形式的图片数据,
text返回字符串形式的,
json()返回字典对象类型形式的数据。
(2)提取每个图片的地址
找到每个图片对应的标签及属性
发现图片的链接地址存在于< a >标签的< img src>中,而< a >标签存在于< div class=“thumb”>中,之后又通过对其他图片的观察分析,发现每张图片都存在于< div class=“article” >格式下的< div class=“thumb” >标签中。因此可以通过获取每个此结构下的< img src>里的属性值来获取地址。
先对单个的进行分析
<div class="thumb">
<a href="/article/123375434" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12337/123375434/medium/QYXU9TS6VGP54HBK.jpg" alt="糗事#123375434" class="illustration" width="100%" height="auto">
</a>
</div>
编写相应的正则表达式:
ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
编写代码,提取所有图片的地址编号
import requests
import re
import os
if __name__ == "__main__":
# 创建一个文件夹,用于保存所有的图片
if not os.path.exists('./qiutuLibs'):
os.mkdir('./qiutuLibs')
url = 'https://www.qiushibaike.com/imgrank/'
headers = {
'User-Agent':'Mozilla/....'
}
# content返回的是二进制形式的图片数据,text返回字符串形式的,json()返回字典对象类型形式的数据
image_data = requests.get(url=url).content
# 使用通用爬虫对url对应的一整张页面进行爬取
page_text = requests.get(url=url,headers=headers).text
# 使用聚焦爬虫将页面中所有的糗图进行解析/提取
ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
img_src_list = re.findall(ex,page_text,re.S)
print(img_src_list)
正确提取
(3)提取单个页面上的所有图片
将提取的地址组合成可获取图片的URL地址,将其保存到文件夹下。
import requests
import re
import os
if __name__ == "__main__":
# 创建一个文件夹,用于保存所有的图片
if not os.path.exists('./qiutuLibs'):
os.mkdir('./qiutuLibs')
url = 'https://www.qiushibaike.com/imgrank/'
headers = {
'User-Agent':'Mozilla/...'
}
# content返回的是二进制形式的图片数据,text返回字符串形式的,json()返回字典对象类型形式的数据
# image_data = requests.get(url=url).content
# 使用通用爬虫对url对应的一整张页面进行爬取
page_text = requests.get(url=url,headers=headers).text
# 使用聚焦爬虫将页面中所有的糗图进行解析/提取
ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
img_src_list = re.findall(ex,page_text,re.S)
# print(img_src_list)
for src in img_src_list:
# 拼接处一个完整的图片url
src = 'https:'+src
# 请求到了图片的二进制数据
img_data = requests.get(url=src,headers=headers).content
# 生成图片名称
img_name = src.split('/')[-1]
# 图片存储的路径
imgPath = './qiutuLibs/'+img_name
with open(imgPath,'wb') as fp:
fp.write(img_data)
print(img_name,'success!')
(4)提取多个页面上的所有图片
首先,观察第一页的地址
再打开第二页,观察第二页的地址
再来看第三页的地址
发现URL上/page/后面的数字变化会控制页面的跳转,同时输入为1时,也可以跳转到第一页
因此,只要设置循环改变/page/后面的数字,就可以遍历所有的页面获取其图片。
- 代码实现:
import requests
import re
import os
if __name__ == "__main__":
# 创建一个文件夹,用于保存所有的图片
if not os.path.exists('./qiutuLibs'):
os.mkdir('./qiutuLibs')
# 设置一个通用的url模板
url = 'https://www.qiushibaike.com/imgrank/page/%d/'
# pageNum = 1
headers = {
'User-Agent':'Mozilla/....'
}
for pageNum in range(1,14):
#对应页码的url
new_url = format(url%pageNum)
# 使用通用爬虫对url对应的一整张页面进行爬取
page_text = requests.get(url=new_url,headers=headers).text
# 使用聚焦爬虫将页面中所有的糗图进行解析/提取
ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
img_src_list = re.findall(ex,page_text,re.S)
# print(img_src_list)
for src in img_src_list:
# 拼接出一个完整的图片url
src = 'https:'+src
# 请求到了图片的二进制数据
img_data = requests.get(url=src,headers=headers).content
# 生成图片名称
img_name = src.split('/')[-1]
# 图片存储的路径
imgPath = './qiutuLibs/'+img_name
with open(imgPath,'wb') as fp:
fp.write(img_data)
print(img_name,'success!')
-
知识点:
python格式化输出之format用法 -
效果展示: