爬取图片并保存

最新推荐文章于 2024-07-22 17:25:13 发布

故里顾里

最新推荐文章于 2024-07-22 17:25:13 发布

阅读量305

点赞数 2

分类专栏：爬虫开发

本文链接：https://blog.csdn.net/m0_47170642/article/details/109700518

版权

爬虫开发专栏收录该内容

11 篇文章 0 订阅

订阅专栏

首先我们导入一些相关的库，如requests,re,os等标准库：
接下来我们要访问的网址为：http://pic.yxdown.com/list/0_0_1.html
在这里插入图片描述
这就是我们要爬取的图片。
以下是我们要导入的库：

import requests
from lxml import etree
import os
import re

接下来是找到我们所需要的网页html并解析：

url = 'http://pic.yxdown.com/list/0_0_1.html'
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"
}
response = requests.get(url,headers=headers).text
html = etree.HTML(response)

这是我们要打开的网页检测器，按F12,或单击右键后选择检查，就能查看到。
在这里插入图片描述
这里我们使用xpath方法获取id为con的div下的所有div.

urls = html.xpath('//*[@id="con"]/div')

在这里插入图片描述

for div in urls:
    img_urls = div.xpath('./div[2]/a/img/@src')
    img_alt = div.xpath('./div[2]/a/img/@alt')
    for img_url in img_urls:
        if(img_url==" "):
            img_url.delete()
        else:
            imgs.append(img_url)

以上代码是获取图片的地址（img_urls）以及图片的名称（img_alt)并判断获取的图片地址是否为空，这里为什么这么判断呢，这是因为我们在爬取图片的时候有一张图片的地址也是这个但是我们爬取不到里面的url所以第一个图片还会为空，要删除掉。
在这里插入图片描述
这就是会影响我们的图片。
接下来是图片的下载：

for img in imgs:
    imgurls = requests.get(url=img,headers=headers)
    name = img.split('/')[-1]
    img_data = requests.get(url=img,headers=headers).content
    img_path = 'picture1/'+name
    with open(img_path,'wb') as f:
        f.write(img_data)
        print(name,"下载成功")