一个爬取表情包项目

最新推荐文章于 2024-08-03 19:27:22 发布

Rebel_cc

最新推荐文章于 2024-08-03 19:27:22 发布

阅读量370

点赞数

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42613399/article/details/107599712

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一个爬取表情包项目
经常有小伙伴跟我说表情包不够用的情况，然后我就找了个表情包的网站，简单得分析了一下，写了个python脚本爬取了一下，下面来介绍一下吧：

首先是一个获取网页源代码的函数spider：

函数需要的参数只有一个url地址，return网页的源代码

url = “https://www.fabiaoqing.com/biaoqing/lists/page/1”
该网站的图片分页是200，每进入下一页page后面的参数＋1，这时用网页检查功能查看任意一张图片的代码部分
图片样式
可以看到img标签的class为lazy，这是为了让图片在网页中显示的时候根据网速的不同，用懒加载的方式达到更快的响应速度，所以src后面的url不是我们要得到的图片地址，真实的url应该为data-original后面的

在这里插入图片描述
为了达到图片类型分类的目的，写了2个正则匹配来匹配jpg图片和gif图片，当然也可以用第三行的代码来匹配任意格式的图片（如png，jpg，gif，tif等），要爬取的网页只有这两种格式，所以就用前两个就好了
这时我们设置url = “https://www.fabiaoqing.com/biaoqing/lists/page/{}.html”,用for循环的方式来遍历200页，这边我只下载了jpg的图片，如果有需要，可以用用相同的方式遍历gif_url来下载，不过为了防止网页访问频繁导致你的ip被封，可以用time.sleep()来设置每几页睡眠几秒，我这边每10页，休息了20秒

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一个爬取表情包项目

一个爬取表情包项目经常有小伙伴跟我说表情包不够用的情况，然后我就找了个表情包的网站，简单得分析了一下，写了个python脚本爬取了一下，下面来介绍一下吧：首先是一个获取网页源代码的函数spider：函数需要的参数只有一个url地址，return网页的源代码url = “https://www.fabiaoqing.com/biaoqing/lists/page/1”该网站的图片分页是200，每进入下一页page后面的参数＋1，这时用网页检查功能查看任意一张图片的代码部分可以看到img标签的c
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。