爬虫之批量下载表情包

最新推荐文章于 2024-05-02 01:39:03 发布

听说不挂科

最新推荐文章于 2024-05-02 01:39:03 发布

阅读量453

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/qq_53029299/article/details/114872006

版权

python 专栏收录该内容

63 篇文章 9 订阅

订阅专栏

首先要获取网页数据

import requests
from bs4 import BeautifulSoup
from pathlib import Path

url="https://www.fabiaoqing.com/biaoqing/lists/page/1.html"
response=requests.get(url)
soup=BeautifulSoup(response.content,"lxml")

获取的网页源代码如下
在这里插入图片描述

图片需要用标签img来爬取
在图片上右键检查，此时会有一个框变成蓝色，然后右键Edit as HTML
然后再选取一张图片，找出img及其规律
在这里插入图片描述
这里发现是一样的，都是ui image lazy
然后选择标签

img_list=soup.find_all('img',class_='ui image lazy')

运行结果如下
在这里插入图片描述
最后就开始下载图片了，这里贴全代码

import requests
from bs4 import BeautifulSoup
from pathlib import Path

#数据获取
url="https://www.fabiaoqing.com/biaoqing/lists/page/1.html"
response=requests.get(url)
soup=BeautifulSoup(response.content,"lxml")
#选择标签
img_list=soup.find_all('img',class_='ui image lazy')
#下载图片
for index,img in enumerate(img_list):
    image=img.get('data-original')#图片地址
    content=requests.get(image).content
    file=Path('d:/emotion') /f'{index}{Path(image).suffix}'
    file.write_bytes(content)

运行结果如下
在这里插入图片描述
如果要获取多页的话，可以发现不同网页只有网址最后的数字发生变化，所以for循环解决,此处加一个sleep函数，目的是让网页有缓冲的时间，因为只有全部缓冲完毕才能解析网页

import time
for i in range(1,100):
	url=f'https://www.fabiaoqing.com/biaoqing/lists/page/{i}.html'
	response=requests.get(url)
	time.sleep(3)
	soup=BeautifulSoup(response.content,"lxml")
	#选择标签
	img_list=soup.find_all('img',class_='ui image lazy')
	#下载图片
	for index,img in enumerate(img_list):
	    image=img.get('data-original')#图片地址
	    content=requests.get(image).content
	    file=Path('d:/emotion') /f'{index}{Path(image).suffix}'
	    file.write_bytes(content)

听说不挂科

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬虫之批量下载表情包

首先要获取网页数据mport requestsfrom bs4 import BeautifulSoupfrom pathlib import Pathurl="https://www.fabiaoqing.com/biaoqing/lists/page/1.html"response=requests.get(url)soup=BeautifulSoup(response.content,"lxml")获取的网页源代码如下图片需要用标签img来爬取在图片上右键检查，此时会有一个框变
复制链接

扫一扫