爬虫之批量下载表情包

首先要获取网页数据

import requests
from bs4 import BeautifulSoup
from pathlib import Path

url="https://www.fabiaoqing.com/biaoqing/lists/page/1.html"
response=requests.get(url)
soup=BeautifulSoup(response.content,"lxml")

获取的网页源代码如下
在这里插入图片描述

图片需要用标签img来爬取
在图片上右键检查,此时会有一个框变成蓝色,然后右键Edit as HTML
然后再选取一张图片,找出img及其规律
在这里插入图片描述
这里发现是一样的,都是ui image lazy
然后选择标签

img_list=soup.find_all('img',class_='ui image lazy')

运行结果如下
在这里插入图片描述
最后就开始下载图片了,这里贴全代码

import requests
from bs4 import BeautifulSoup
from pathlib import Path

#数据获取
url="https://www.fabiaoqing.com/biaoqing/lists/page/1.html"
response=requests.get(url)
soup=BeautifulSoup(response.content,"lxml")
#选择标签
img_list=soup.find_all('img',class_='ui image lazy')
#下载图片
for index,img in enumerate(img_list):
    image=img.get('data-original')#图片地址
    content=requests.get(image).content
    file=Path('d:/emotion') /f'{index}{Path(image).suffix}'
    file.write_bytes(content)

运行结果如下
在这里插入图片描述
如果要获取多页的话,可以发现不同网页只有网址最后的数字发生变化,所以for循环解决,此处加一个sleep函数,目的是让网页有缓冲的时间,因为只有全部缓冲完毕才能解析网页

import time
for i in range(1,100):
	url=f'https://www.fabiaoqing.com/biaoqing/lists/page/{i}.html'
	response=requests.get(url)
	time.sleep(3)
	soup=BeautifulSoup(response.content,"lxml")
	#选择标签
	img_list=soup.find_all('img',class_='ui image lazy')
	#下载图片
	for index,img in enumerate(img_list):
	    image=img.get('data-original')#图片地址
	    content=requests.get(image).content
	    file=Path('d:/emotion') /f'{index}{Path(image).suffix}'
	    file.write_bytes(content)
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值