使用正则解析,分页爬取图片

这篇博客记录了一位开发者使用Python进行网络爬虫的实践过程,主要目标是抓取糗事百科热图模块的所有图片。通过设置User-Agent以避免被网站屏蔽,首先获取页面源码,然后使用正则表达式解析出图片链接,保存图片到本地。此外,博主还实现了分页功能,能够爬取多个页面的图片,进一步完善了爬虫脚本。
摘要由CSDN通过智能技术生成

最近在跟着网上的视频复习爬虫,记录一下

# -*-coding:utf-8-*-
#  爬取糗图百科中热图模块下的所有图片

import requests
import re
import os
if __name__=='__main__':
    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
    }
    url = "https://www.qiushibaike.com/imgrank/"
    '''
    url = "https://pic.qiushibaike.com/system/pictures/12482/124821966/medium/TJ4REMVCKAP8RJVA.jpg"
    
    一般爬虫的使用方式及保存
    
    # content返回的是二进制形式的图片数据,
    # text(字符串)、content(二进制)、json()(对象)
    img_data=requests.get(url,headers).content

    
    with open('out.png','wb')as f:
        f.write(img_data)
    '''
    if not os.path.exists('./糗图'):
        os.mkdir("./糗图")

    # 使用re正则解析
    # 使用requests对整张页面进行爬取
    page_data = requests.get(url, headers).text
    # 解析/提取
    # 这个正则能提取到多少元素就有多少个元素
    ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
    # 将正则应用到page_data。返回为list
    # re.S单行匹配,re.M多行匹配
    img_src_list=re.findall(ex, page_data,re.S)
    for src in img_src_list:
        # 拼接成完整的图片url
        url_new="https:"+src
        img_data = requests.get(url_new,headers).content
        # 图片名称

        img_name=src.split("/")[-1]

        img_path='./糗图/'+img_name
        with open(img_path,'wb') as f:
            f.write(img_data)
        print(img_name,"ok!")

升级,实现分页功能

# -*-coding:utf-8-*-
import requests
import re
import os
if __name__=='__main__':

    headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
    }
    # 分页实现一
    # url="https://www.qiushibaike.com/imgrank/page/%d/"
    # 分页实现二
    url = "https://www.qiushibaike.com/imgrank/page/"

    for pageNum in range(1,10):

        # url_new = format(url%pageNum)   # 一
        url_new = url+str(pageNum)      # 二

        path = "./糗图_分页/"+str(pageNum)+"/"
        if not os.path.exists(path):
            os.mkdir(path)

        ex = '<div class="thumb">.*?<img src="(.*?)" alt=".*?</div>'

        page_list = requests.get(url_new,headers).text

        img_list = re.findall(ex,page_list,re.S)
        for src in img_list:
            url_img = "https:"+src
            img_name = src.split('/')[-1]
            img_path= path+img_name

            img_data=requests.get(url_img).content

            with open(img_path,'wb') as f:
                f.write(img_data)

        print(pageNum,"ok")

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python使用正则表达式暴力爬取豆瓣电影是一种可以快速获取电影信息的方法。首先,我们需要使用requests库获取豆瓣电影页面的HTML源代码。接下来,使用正则表达式对源代码进行匹配和提取。例如,如果我们想获取电影的名称、评分和导演信息,我们可以使用正则表达式匹配对应的HTML标签并提取出所需的文本信息。比如使用正则表达式" <span class="title">(.+?)</span>" 可以匹配到电影名称所在的标签。 接下来,我们可以通过循环遍历的方式不断获取更多的电影信息。假设每个页面显示20部电影,我们可以使用正则表达式找到下一页的链接,并不断访问并抓取数据。 当然,使用正则表达式爬取数据也有一些缺点。因为正则表达式往往较为复杂,所以代码可读性较差,容易出错和不易维护。此外,如果网页结构发生变化,我们需要手动修改正则表达式以适应变化,工作量较大。因此,当网页结构较为复杂或者需要爬取大量数据时,我们可以考虑使用更强大的爬虫框架如Scrapy,它集成了更多方便的功能,如自动跟踪链接和处理异步加载的数据等。 总之,对于简单的爬取任务,Python使用正则表达式暴力爬取豆瓣电影是一种比较直接且有效的方法。但是需要注意的是遵守豆瓣网站的爬虫规则,并且避免频繁请求造成对网站的负载过大。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值