python 爬虫之requests爬取页面图片的url，并将图片下载到本地

最新推荐文章于 2023-02-19 16:18:46 发布

weixin_34262482

最新推荐文章于 2023-02-19 16:18:46 发布

阅读量5.4k

点赞数 2

文章标签： python 爬虫后端

原文链接：http://www.cnblogs.com/hardykay/p/11009670.html

版权

本文作者hardy分享了如何使用Python的requests库爬取网页上的图片URL，并将其下载保存到本地。他指出img标签src值可能的四种类型，并通过解析HTML获取src值，接着下载并保存图片。

摘要由CSDN通过智能技术生成

大家好我叫hardy

需求：爬取某个页面，并把该页面的图片下载到本地

思考：

　　img标签一个有多少种类型的src值？四种：1、以http开头的网络链接。2、以“//”开头网络地址。3、以“/”开头绝对路径。4、以“./”开头相对路径。当然还有其他类型，不过这个不做考虑，能力有限呀。

　　使用什么工具？我用requests、xpth

　　都有那些步骤：1、爬取网页

　　　　　　　　　　2、分析html并获取img中的src的值

　　　　　　　　　　3、获取图片

　　　　　　　　　　4、保存

具体实现

import requests
from lxml import etree
import time
import os
import re

requests = requests.session()

website_url = ''
website_name = ''

'''
爬取的页面
'''
def html_url(url):
    try:
        head = set_headers()
        text = requests.get(url,headers=head)
        # print(text)
        html = etree.HTML(text.text)
        img = html.xpath('//img/@src')
        # 保存图片
        for src in img:
            src = auto_completion(src)
            file_path = save_image(src)
            if file_path == False:
                print('请求的图片路径出错，url地址为：%s'%src)
            else :
                print('保存图片的地址为：%s'%file_path)
    except requests.exceptions.ConnectionError as

最低0.47元/天解锁文章

weixin_34262482

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫之requests爬取页面图片的url，并将图片下载到本地

大家好我叫hardy需求：爬取某个页面，并把该页面的图片下载到本地思考：　　img标签一个有多少种类型的src值？四种：1、以http开头的网络链接。2、以“//”开头网络地址。3、以“/”开头绝对路径。4、以“./”开头相对路径。当然还有其他类型，不过这个不做考虑，能力有限呀。　　使用什么工具？我用requests、xpth　　都有那些步骤：1、爬取网页　　　...
复制链接

扫一扫