爬取所有糗图图片

最新推荐文章于 2024-07-24 10:38:58 发布

py爱好者~

最新推荐文章于 2024-07-24 10:38:58 发布

阅读量158

点赞数

分类专栏：爬虫记录文章标签：爬虫 python 数据挖掘

本文链接：https://blog.csdn.net/qq_52561726/article/details/121103431

版权

爬虫记录专栏收录该内容

11 篇文章 0 订阅

订阅专栏

用正则表达式爬取所有的糗图图片

非常简单，废话不多说，上代码

import requests
import re
import os
if __name__=='__main__':
    #指定页面url与UA伪装、建立一个文件夹
    if not os.path.exists('./qiutu'):
        os.mkdir('./qiutu')
    headers = {
            'User Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36'
        }
    #设置一个通用的url
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
    # 发送请求并获取整个页面的响应数据
    for pageNum in range(1,3):
        new_url = format(url%pageNum)
        page_text = requests.get(url=new_url,headers=headers).text
        #使用聚焦爬虫正则表达式爬取所有的糗图图片进行解析/提取
        ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
        #将正则表达式运用于爬取到的所有数据
        img_list_data = re.findall(ex,page_text,re.S)
        #print(img_list_data)  验证一下
        for src in img_list_data:
            src = 'https:'+src   #拼接一个完整的url
            img_data= requests.get(url=src,headers=headers).content #获取数据的二进制形式
            img_name= src.split('/')[-1] #生成图片名字
            img_path= './qiutu/'+img_name #存储图片路径
            with open(img_path,'wb') as fp:
                fp.write(img_data)
                print(img_name,'over!!!')

py爱好者~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬取所有糗图图片

用正则表达式爬取所有的糗图图片非常简单，废话不多说，上代码import requestsimport reimport osif __name__=='__main__': #指定页面url与UA伪装、建立一个文件夹 if not os.path.exists('./qiutu'): os.mkdir('./qiutu') headers = { 'User Agent': 'Mozilla/5.0 (Windows NT 10
复制链接

扫一扫