学习目标:
利用python批量抓取网站上的图片保存于本地`
声明:网站均使用个人学习网站,这里不提供
学习内容:
- 进入网址
- 了解网页内容的构造:
a. 图片信息的属性
b. 图片标签包含什么内容
c. 是否存在需要翻页的情况
import requests
from bs4 import BeautifulSoup
count = 1
for page in range(1, 4):
url = f"https://***********************/{page}.****"
header = {
"User-Agent": "****************************************"}
response = requests.get(url, headers=header)
html = response.text
soup = BeautifulSoup(html, "lxml")
content_all = soup.find_all(class_="pic")
for content in content_all:
imgLink = content.find("img")
imgName = imgLink.attrs["alt"]
imgUrl = imgLink.attrs["src"]
imgResponse = requests.get(imgUrl)
img = imgResponse.content
with open(f"***************************/{count}.jpg", "wb") as f:
f.write(img)
count += 1
这里for page in range(1, 4):,观察网站内容,需要翻页(这里需要前三页),观察网页每页的链接,发现中间有一段的数字一直变化,而其他不变,所以用for循环做到翻页