python 批量爬取糗事百科里的所有图片

最新推荐文章于 2023-07-07 11:51:12 发布

此去何从

最新推荐文章于 2023-07-07 11:51:12 发布

阅读量173

点赞数

分类专栏： python学习笔记文章标签： python

本文链接：https://blog.csdn.net/qq_44889022/article/details/110123351

版权

python学习笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

import requests
import re
import os
if __name__ == '__main__':
    # 创建一个文件夹，保存所有图片
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36 Edg/86.0.622.68'
        }
    if not os.path.exists('./qiutuLibs') :
        os.mkdir('./qiutuLibs')
    
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
    for pageNum in range(1,14):
        new_url = format(url%pageNum)
    
    
        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url,headers=headers).text
        
        # 使用聚焦爬虫将页面中所有的糗图进行解析/爬取
        ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
        img_src_list = re.findall(ex, page_text, re.S)
        
        for src in img_src_list:
            # 拼接出一个完整的图片url
            src = 'https:' + src
            # 请求到了一个图片的二进制数据
            img_data = requests.get(url=src, headers=headers).content
            # 生成图片名称
            img_name = src.split('/')[-1]
            # 图片存储的路径
            imgPath = './qiutuLibs/' + img_name
            with open(imgPath, 'wb') as fp:
                fp.write(img_data)
                print(img_name, '爬取成功！！！')

此去何从

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 批量爬取糗事百科里的所有图片

import requestsimport reimport osif __name__ == '__main__': # 创建一个文件夹，保存所有图片 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36 Edg/86.0.622.68'
复制链接

扫一扫

专栏目录