5. python爬虫——基于正则表达式获取糗事百科多个页面上的图片

1. 需求:

获取糗事百科上热图专栏上的所有图片

2. 分析&代码实现:

(1)单个图片获取

首先,进入到糗事百科热图专栏,获取图片的地址信息,打开
在这里插入图片描述
https://pic.qiushibaike.com/system/pictures/12337/123375434/medium/QYXU9TS6VGP54HBK.jpg

再使用python编程,获取图片,保存到本地

import requests

if __name__ == "main":
	url = ''
	headers = {
		'User-Agent':'Mozilla/....'
	}
	# content返回的是二进制形式的图片数据,text返回字符串形式的,json()返回字典对象类型形式的数据
    image_data = requests.get(url=url).content
    with open('./qiutu.jpg','wb') as fp:
    	fp.write(iamge_data)
  • 知识点:
    content返回的是二进制形式的图片数据,
    text返回字符串形式的,
    json()返回字典对象类型形式的数据。

(2)提取每个图片的地址

找到每个图片对应的标签及属性

在这里插入图片描述

发现图片的链接地址存在于< a >标签的< img src>中,而< a >标签存在于< div class=“thumb”>中,之后又通过对其他图片的观察分析,发现每张图片都存在于< div class=“article” >格式下的< div class=“thumb” >标签中。因此可以通过获取每个此结构下的< img src>里的属性值来获取地址。

先对单个的进行分析

<div class="thumb">

<a href="/article/123375434" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12337/123375434/medium/QYXU9TS6VGP54HBK.jpg" alt="糗事#123375434" class="illustration" width="100%" height="auto">
</a>
</div>

编写相应的正则表达式:

ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

编写代码,提取所有图片的地址编号

import requests
import re
import os

if __name__ == "__main__":
    # 创建一个文件夹,用于保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')
    
    url = 'https://www.qiushibaike.com/imgrank/'
    headers = {
            'User-Agent':'Mozilla/....'
    }
    # content返回的是二进制形式的图片数据,text返回字符串形式的,json()返回字典对象类型形式的数据
    image_data = requests.get(url=url).content
    # 使用通用爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text
    
    # 使用聚焦爬虫将页面中所有的糗图进行解析/提取
    ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
    img_src_list = re.findall(ex,page_text,re.S)
    print(img_src_list)

在这里插入图片描述
正确提取

(3)提取单个页面上的所有图片

将提取的地址组合成可获取图片的URL地址,将其保存到文件夹下。

import requests
import re
import os

if __name__ == "__main__":
    # 创建一个文件夹,用于保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')
    
    url = 'https://www.qiushibaike.com/imgrank/'
    headers = {
            'User-Agent':'Mozilla/...'
    }
    # content返回的是二进制形式的图片数据,text返回字符串形式的,json()返回字典对象类型形式的数据
    # image_data = requests.get(url=url).content
    
    # 使用通用爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text
    
    # 使用聚焦爬虫将页面中所有的糗图进行解析/提取
    ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
    img_src_list = re.findall(ex,page_text,re.S)
    # print(img_src_list)
    for src in img_src_list:
        # 拼接处一个完整的图片url
        src = 'https:'+src
        # 请求到了图片的二进制数据
        img_data = requests.get(url=src,headers=headers).content
        # 生成图片名称
        img_name = src.split('/')[-1]
        # 图片存储的路径
        imgPath = './qiutuLibs/'+img_name
        with open(imgPath,'wb') as fp:
            fp.write(img_data)
            print(img_name,'success!')

(4)提取多个页面上的所有图片

首先,观察第一页的地址
在这里插入图片描述
再打开第二页,观察第二页的地址
在这里插入图片描述
再来看第三页的地址
在这里插入图片描述
发现URL上/page/后面的数字变化会控制页面的跳转,同时输入为1时,也可以跳转到第一页
在这里插入图片描述
因此,只要设置循环改变/page/后面的数字,就可以遍历所有的页面获取其图片。

  • 代码实现:
import requests
import re
import os

if __name__ == "__main__":
    # 创建一个文件夹,用于保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')
    # 设置一个通用的url模板    
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
#    pageNum = 1
    headers = {
            'User-Agent':'Mozilla/....'
    }
    
    for pageNum in range(1,14):
        #对应页码的url
        new_url = format(url%pageNum)
        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url,headers=headers).text
        
        # 使用聚焦爬虫将页面中所有的糗图进行解析/提取
        ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
        img_src_list = re.findall(ex,page_text,re.S)    

        # print(img_src_list)
        for src in img_src_list:
            # 拼接出一个完整的图片url
            src = 'https:'+src
            # 请求到了图片的二进制数据
            img_data = requests.get(url=src,headers=headers).content
            # 生成图片名称
            img_name = src.split('/')[-1]
            # 图片存储的路径
            imgPath = './qiutuLibs/'+img_name
            with open(imgPath,'wb') as fp:
                fp.write(img_data)
                print(img_name,'success!')
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辰阳星宇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值