import time
import requests
from bs4 import BeautifulSoup
for i in range(2, 50):
url = f'https://pic.netbian.com/4kyouxi/index_{i}.html'
# 向网址发送get请求
resp = requests.get(url)
# 避免乱码
resp.encoding = 'gbk'
# 获取网页的源码
# print(resp.text)
# BeautifulSoup解析库,把网页翻译成bs4能识别的语言
# 'html.parser'固定的搭配,BeautifulSoup必须要加
soup = BeautifulSoup(resp.text, 'html.parser')
# find() 用来查找第一个属性为clearfix的ul
ul = soup.find('ul', class_="clearfix")
# find_all() 查找所有符合条件的li,返回一个列表[]
lis = ul.find_all('li')
# 遍历列表:把列表里面的每一个元素单独的拿出来
for li in lis:
# get() 获取图片的src的属性值, src就是图片的路径
src = li.find('img').get('src')
# 因为获取的src不是一个真实的网址,需要加https://pic.netbian.com
img_url = 'https://pic.netbian.com' + src
# 把<b>标签的内容当成图片的名字, text获取标签的文本
name = li.find('b').text
# 存储图片 打开一个后缀名为.jpg文件, wb 向文件里面写入二进制
f = open('图片./' + name + '.jpg', 'wb')
# content 获取图片的二进制信息,并把信息写入文件
a = requests.get(img_url).content
f.write(a)
# 关闭文件 目的是为了避免文件一直打开,占用内存
f.close()
# 防止网站的服务器封锁IP
time.sleep(1)
爬取多张图片
最新推荐文章于 2023-10-22 12:00:00 发布