Python抓取网页图片

import urllib.request
import os
import urllib
import bs4
import time


def get_html(url):
    content = urllib.request.urlopen(url).read()
    soup = bs4.BeautifulSoup(content, "html.parser")
    return soup


def get_img(soup, url):
    local_dir = 'E:\\pythonDownload\\image'  # 设置图片的保存地址
    if not os.path.isdir(local_dir):
        os.makedirs(local_dir)  # 判断没有此路径则创建

    img_tag = 'a'  # 网页中包含图片信息的标签
    attr_src = 'data-original'  # 图片路径所在的attr
    attr_name = 'title'  # 图片名称所在的attr
    attr_href = 'href'  # 图片href所在的attr
    doms = soup.findAll(img_tag)

    list_src = []
    list_name = []
    list_href = []
    for dom in doms:
        if dom.has_attr(attr_src):
            src = urllib.parse.urljoin(url, dom[attr_src])  # 相对路径转换为绝对路径
            list_src.append(src)

            if dom.has_attr(attr_name):
                list_name.append(dom[attr_name])
            else:
                list_name.append(time.strftime("%Y%m%d%H%M%S", time.localtime()))

            if dom.has_attr(attr_href):
                list_href.append(dom[attr_href])

    num = 0
    for i in range(list_src.__len__()):
        imgurl = list_src[i]
        filesuffix = imgurl.split(".")[-1]  # 获取文件后缀名

        filename = local_dir + os.sep + list_name[i] + '_' + str(num) + '.' + filesuffix
        print(filename + "   " + imgurl)  # 打印下载信息
        urllib.request.urlretrieve(imgurl, filename)  # 下载图片
        num += 1

    print('下载图片:' + str(num) + '张')


path = "www.baidu.com"  # 要下载图片的网页
html = get_html(path)  # 获取该网页的详细信息
get_img(html, path)  # 从网页源代码中分析下载保存图片
print('done')

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值