一个爬取表情包项目

一个爬取表情包项目
经常有小伙伴跟我说表情包不够用的情况,然后我就找了个表情包的网站,简单得分析了一下,写了个python脚本爬取了一下,下面来介绍一下吧:

首先是一个获取网页源代码的函数spider:

函数需要的参数只有一个url地址,return网页的源代码

url = “https://www.fabiaoqing.com/biaoqing/lists/page/1”
该网站的图片分页是200,每进入下一页page后面的参数+1,这时用网页检查功能查看任意一张图片的代码部分
图片样式
可以看到img标签的class为lazy,这是为了让图片在网页中显示的时候根据网速的不同,用懒加载的方式达到更快的响应速度,所以src后面的url不是我们要得到的图片地址,真实的url应该为data-original后面的

在这里插入图片描述
为了达到图片类型分类的目的,写了2个正则匹配来匹配jpg图片和gif图片,当然也可以用第三行的代码来匹配任意格式的图片(如png,jpg,gif,tif等),要爬取的网页只有这两种格式,所以就用前两个就好了
这时我们设置url = “https://www.fabiaoqing.com/biaoqing/lists/page/{}.html”,用for循环的方式来遍历200页,这边我只下载了jpg的图片,如果有需要,可以用用相同的方式遍历gif_url来下载,不过为了防止网页访问频繁导致你的ip被封,可以用time.sleep()来设置每几页睡眠几秒,我这边每10页,休息了20秒

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值