python爬取网址并保存其中的图片

泉绮

已于 2023-05-02 22:44:16 修改

阅读量711

点赞数 1

分类专栏：平时手记文章标签： python 爬虫开发语言

于 2023-05-01 23:25:16 首次发布

本文链接：https://blog.csdn.net/qq_62791684/article/details/130460060

版权

平时手记专栏收录该内容

18 篇文章 5 订阅

订阅专栏

该代码段展示了一个使用Python的requests和BeautifulSoup库来抓取网页上的图片，并将它们保存到本地的简单爬虫程序。首先，它发送HTTP请求获取网页源代码，然后解析HTML找到所有图片链接。接着，如果图片URL缺少协议头，它会添加HTTPS。最后，爬虫下载图片并以清洁的文件名存储在images文件夹中。

摘要由CSDN通过智能技术生成

计网要结课了，发现有个实验是这个，开搞
直接上代码：

import requests
from bs4 import BeautifulSoup
import os
import re

# 定义要爬取的网页URL
url = "http://www.acwing.com"

# 发送请求，获取网页源代码
response = requests.get(url)
html = response.content.decode('utf-8')

# 使用BeautifulSoup解析网页
soup = BeautifulSoup(html, 'html.parser')

# 创建目标文件夹
if not os.path.exists('images'):
    os.mkdir('images')

# 遍历所有图片标签，获取图片并保存到本地
for img in soup.findAll('img'):
    img_url = img.get('src')

    #判断图片地址是否包含协议头
    if not re.match(r'http[s]?:', img_url):
        img_url = 'https:' + img_url

    r = requests.get(img_url)

    #清理文件名
    image_name = re.sub(r'[^\w\-_\. ]', '', os.path.basename(img_url))

    with open('images/' + image_name, 'wb') as f:
        f.write(r.content)

print('图片爬取完成！')