5. python爬虫——基于正则表达式获取糗事百科多个页面上的图片-CSDN博客

本文链接：https://blog.csdn.net/qq_41094332/article/details/108257517

python爬虫——获取糗事百科多个页面上的图片

1. 需求：
2. 分析&代码实现：

1. 需求：

获取糗事百科上热图专栏上的所有图片

2. 分析&代码实现：

（1）单个图片获取

首先，进入到糗事百科热图专栏，获取图片的地址信息，打开
在这里插入图片描述
https://pic.qiushibaike.com/system/pictures/12337/123375434/medium/QYXU9TS6VGP54HBK.jpg

再使用python编程，获取图片，保存到本地

import requests

if __name__ == "main":
	url = ''
	headers = {
		'User-Agent':'Mozilla/....'
	}
	# content返回的是二进制形式的图片数据，text返回字符串形式的，json（）返回字典对象类型形式的数据
    image_data = requests.get(url=url).content
    with open('./qiutu.jpg','wb') as fp:
    	fp.write(iamge_data)

知识点：
content返回的是二进制形式的图片数据，
text返回字符串形式的，
json（）返回字典对象类型形式的数据。

（2）提取每个图片的地址

找到每个图片对应的标签及属性

在这里插入图片描述

发现图片的链接地址存在于< a >标签的< img src>中，而< a >标签存在于< div class=“thumb”>中，之后又通过对其他图片的观察分析，发现每张图片都存在于< div class=“article” >格式下的< div class=“thumb” >标签中。因此可以通过获取每个此结构下的< img src>里的属性值来获取地址。

先对单个的进行分析

<div class="thumb">

<a href="/article/123375434" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12337/123375434/medium/QYXU9TS6VGP54HBK.jpg" alt="糗事#123375434" class="illustration" width="100%" height="auto">
</a>
</div>

编写相应的正则表达式：

ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

知识点：
正则 —— (.)与(.?)和一些基础的东西

python笔记之re模块学习

编写代码，提取所有图片的地址编号

import requests
import re
import os

if __name__ == "__main__":
    # 创建一个文件夹，用于保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')
    
    url = 'https://www.qiushibaike.com/imgrank/'
    headers = {
            'User-Agent':'Mozilla/....'
    }
    # content返回的是二进制形式的图片数据，text返回字符串形式的，json（）返回字典对象类型形式的数据
    image_data = requests.get(url=url).content
    # 使用通用爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text
    
    # 使用聚焦爬虫将页面中所有的糗图进行解析/提取
    ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
    img_src_list = re.findall(ex,page_text,re.S)
    print(img_src_list)

在这里插入图片描述
正确提取

（3）提取单个页面上的所有图片

将提取的地址组合成可获取图片的URL地址，将其保存到文件夹下。

import requests
import re
import os

if __name__ == "__main__":
    # 创建一个文件夹，用于保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')
    
    url = 'https://www.qiushibaike.com/imgrank/'
    headers = {
            'User-Agent':'Mozilla/...'
    }
    # content返回的是二进制形式的图片数据，text返回字符串形式的，json（）返回字典对象类型形式的数据
    # image_data = requests.get(url=url).content
    
    # 使用通用爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text
    
    # 使用聚焦爬虫将页面中所有的糗图进行解析/提取
    ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
    img_src_list = re.findall(ex,page_text,re.S)
    # print(img_src_list)
    for src in img_src_list:
        # 拼接处一个完整的图片url
        src = 'https:'+src
        # 请求到了图片的二进制数据
        img_data = requests.get(url=src,headers=headers).content
        # 生成图片名称
        img_name = src.split('/')[-1]
        # 图片存储的路径
        imgPath = './qiutuLibs/'+img_name
        with open(imgPath,'wb') as fp:
            fp.write(img_data)
            print(img_name,'success!')

（4）提取多个页面上的所有图片

首先，观察第一页的地址
在这里插入图片描述
再打开第二页，观察第二页的地址

再来看第三页的地址

发现URL上/page/后面的数字变化会控制页面的跳转，同时输入为1时，也可以跳转到第一页

因此，只要设置循环改变/page/后面的数字，就可以遍历所有的页面获取其图片。

代码实现：

import requests
import re
import os

if __name__ == "__main__":
    # 创建一个文件夹，用于保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')
    # 设置一个通用的url模板    
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
#    pageNum = 1
    headers = {
            'User-Agent':'Mozilla/....'
    }
    
    for pageNum in range(1,14):
        #对应页码的url
        new_url = format(url%pageNum)
        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url,headers=headers).text
        
        # 使用聚焦爬虫将页面中所有的糗图进行解析/提取
        ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
        img_src_list = re.findall(ex,page_text,re.S)    

        # print(img_src_list)
        for src in img_src_list:
            # 拼接出一个完整的图片url
            src = 'https:'+src
            # 请求到了图片的二进制数据
            img_data = requests.get(url=src,headers=headers).content
            # 生成图片名称
            img_name = src.split('/')[-1]
            # 图片存储的路径
            imgPath = './qiutuLibs/'+img_name
            with open(imgPath,'wb') as fp:
                fp.write(img_data)
                print(img_name,'success!')