爬取图片并保存

首先我们导入一些相关的库,如requests,re,os等标准库:
接下来我们要访问的网址为:http://pic.yxdown.com/list/0_0_1.html
在这里插入图片描述
这就是我们要爬取的图片。
以下是我们要导入的库:

import requests
from lxml import etree
import os
import re

接下来是找到我们所需要的网页html并解析:

url = 'http://pic.yxdown.com/list/0_0_1.html'
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"
}
response = requests.get(url,headers=headers).text
html = etree.HTML(response)

这是我们要打开的网页检测器,按F12,或单击右键后选择检查,就能查看到。
在这里插入图片描述
这里我们使用xpath方法获取id为con的div下的所有div.

urls = html.xpath('//*[@id="con"]/div')

在这里插入图片描述

for div in urls:
    img_urls = div.xpath('./div[2]/a/img/@src')
    img_alt = div.xpath('./div[2]/a/img/@alt')
    for img_url in img_urls:
        if(img_url==" "):
            img_url.delete()
        else:
            imgs.append(img_url)

以上代码是获取图片的地址(img_urls)以及图片的名称(img_alt)并判断获取的图片地址是否为空,这里为什么这么判断呢,这是因为我们在爬取图片的时候有一张图片的地址也是这个但是我们爬取不到里面的url所以第一个图片还会为空,要删除掉。
在这里插入图片描述
这就是会影响我们的图片。
接下来是图片的下载:

for img in imgs:
    imgurls = requests.get(url=img,headers=headers)
    name = img.split('/')[-1]
    img_data = requests.get(url=img,headers=headers).content
    img_path = 'picture1/'+name
    with open(img_path,'wb') as f:
        f.write(img_data)
        print(name,"下载成功")

最后成功的图片如下:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值