Python爬取网页图片

最新推荐文章于 2024-09-24 11:20:26 发布

琴仙咩豆丁

最新推荐文章于 2024-09-24 11:20:26 发布

阅读量302

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/bc_aptx4869/article/details/77941249

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

import urllib.request
import os
import re
import logging.config

url = r’http://www.h3c.com/cn/’ #爬取华三网站主页的图片

imgPath = r’F:\img’

imgHtml = urllib.request.urlopen(url).read().decode(‘utf-8’) #拿到网页的源代码

urls = re.findall(r’src=”(.*jpg|.*png)”\s’, imgHtml) #根据正则表达式提取出来所有的图片下载地址.

if not os.path.isdir(imgPath): #如果没有此目录,创建一个
os.mkdir(imgPath)

index = 1 #用来记载下载了多少个照片
for url in urls:
logging.basicConfig(level=logging.INFO) #为日志设定级别
logging.info(url)
# 未能正确获得网页就进行异常处理
try:
print(url) #打印下载路径
res = urllib.request.urlopen(‘http://www.h3c.com‘+url) #有的网站上的源代码显示的并不是真实路径.

    if str(res.status) != '200':
        print('未下载成功：', url)
        continue
except Exception as e:
    print('未下载成功：', url)

filename = os.path.join(imgPath, str(index) + '.jpg') #创建一个文件
with open(filename, 'wb') as f:
    f.write(res.read())
    print('下载完成\n')
    index += 1

print(“下载结束，一共下载了 %s 张图片” % (index - 1))