首先我们导入一些相关的库,如requests,re,os
等标准库:
接下来我们要访问的网址为:http://pic.yxdown.com/list/0_0_1.html
这就是我们要爬取的图片。
以下是我们要导入的库:
import requests
from lxml import etree
import os
import re
接下来是找到我们所需要的网页html并解析:
url = 'http://pic.yxdown.com/list/0_0_1.html'
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"
}
response = requests.get(url,headers=headers).text
html = etree.HTML(response)
这是我们要打开的网页检测器,按F12,或单击右键后选择检查,就能查看到。
这里我们使用xpath方法获取id为con的div下的所有div.
urls = html.xpath('//*[@id="con"]/div')
for div in urls:
img_urls = div.xpath('./div[2]/a/img/@src')
img_alt = div.xpath('./div[2]/a/img/@alt')
for img_url in img_urls:
if(img_url==" "):
img_url.delete()
else:
imgs.append(img_url)
以上代码是获取图片的地址(img_urls)以及图片的名称(img_alt)并判断获取的图片地址是否为空,这里为什么这么判断呢,这是因为我们在爬取图片的时候有一张图片的地址也是这个但是我们爬取不到里面的url所以第一个图片还会为空,要删除掉。
这就是会影响我们的图片。
接下来是图片的下载:
for img in imgs:
imgurls = requests.get(url=img,headers=headers)
name = img.split('/')[-1]
img_data = requests.get(url=img,headers=headers).content
img_path = 'picture1/'+name
with open(img_path,'wb') as f:
f.write(img_data)
print(name,"下载成功")
最后成功的图片如下: