首先要获取网页数据
import requests
from bs4 import BeautifulSoup
from pathlib import Path
url="https://www.fabiaoqing.com/biaoqing/lists/page/1.html"
response=requests.get(url)
soup=BeautifulSoup(response.content,"lxml")
获取的网页源代码如下
图片需要用标签img来爬取
在图片上右键检查,此时会有一个框变成蓝色,然后右键Edit as HTML
然后再选取一张图片,找出img及其规律
这里发现是一样的,都是ui image lazy
然后选择标签
img_list=soup.find_all('img',class_='ui image lazy')
运行结果如下
最后就开始下载图片了,这里贴全代码
import requests
from bs4 import BeautifulSoup
from pathlib import Path
#数据获取
url="https://www.fabiaoqing.com/biaoqing/lists/page/1.html"
response=requests.get(url)
soup=BeautifulSoup(response.content,"lxml")
#选择标签
img_list=soup.find_all('img',class_='ui image lazy')
#下载图片
for index,img in enumerate(img_list):
image=img.get('data-original')#图片地址
content=requests.get(image).content
file=Path('d:/emotion') /f'{index}{Path(image).suffix}'
file.write_bytes(content)
运行结果如下
如果要获取多页的话,可以发现不同网页只有网址最后的数字发生变化,所以for循环解决,此处加一个sleep函数,目的是让网页有缓冲的时间,因为只有全部缓冲完毕才能解析网页
import time
for i in range(1,100):
url=f'https://www.fabiaoqing.com/biaoqing/lists/page/{i}.html'
response=requests.get(url)
time.sleep(3)
soup=BeautifulSoup(response.content,"lxml")
#选择标签
img_list=soup.find_all('img',class_='ui image lazy')
#下载图片
for index,img in enumerate(img_list):
image=img.get('data-original')#图片地址
content=requests.get(image).content
file=Path('d:/emotion') /f'{index}{Path(image).suffix}'
file.write_bytes(content)