Python爬虫爬取最右公众号表情包资源

某天上厕所刷手机,看到最右公众号里面有一个表情包资源合集

点进去发现有70多期表情包,突然就想到了最近学的爬虫,立马跑回去打开电脑准备看能不能全部爬下来。

我的想法是先找到这70多期的url链接,然后再看每一期里面表情包图片的url链接,最后爬取下来。

用浏览器打开这篇文章,Ctrl + U查看源码,发现每一期表情包网址的链接都在源码里面,应该说是非常好爬取了

我们复制一下其中一个路径,右键->检查,然后复制选择器

用bs4的select查询一下,发现这些链接应该在 '#js_content > p' 下

 把其中的url链接和标题提取出来存入字典中,写成函数

 这样提取所有每一期表情包链接的函数就做好了,我们来看一下效果

 还行,爬下来了,接下来我们进行下一步,提取每一个表情包的链接

 每一个表情包仍然在源码中,我们和进行和上一步一样的操作,不过这次表情包在 '#js_content > p > img' 里,并且第一个和最后一个并不是表情包(中间有一个图片也不是表情包,但我还没有想好怎么除掉。。。)

 这样我们每一个表情包的链接也提取到了,我们来试一下,

 应该是成功了,这样我们就有了小右给我们准备的所有表情包的链接,接下来就可以下载了。可是表情包并没有标题,我们只能对它用数字命名,但我突然想到一件事,我们可以利用百度AI通用文字识别(50000次/天免费)来识别表情包中的文字对表情包命名,具体使用方法戳这里

 这个文字识别不能对https的链接进行识别,所以我们只能把图片的二进制码转换成base64编码给百度AI,这样让我们的速度慢了不少(而且还是单线程),写好之后我们试一下效果

 效果还是不错的,把不能识别的和识别失误的我们返回数字对表情包命名接下来就是下载啦。

 我们下载到E盘的Download文件夹,我们用try except来预防程序报错不继续下载。接下来就是我们的主函数main了,

 好,到这一步我们的爬取最右公众号表情包资源合集就算是写好了,用到的库有

 

 写完之后run一下,结果非常的amazing啊,

 我们爬取了一千四百多个表情包(其实算下来应该有2k个左右不知道哪出了问题),尽管速度emm很慢(划掉)不过我们仍旧爬下来了很多,并且给他们命名方便我们使用,毕竟一千多个我们不可能一个一个去看,今天的分享就到这里了,很感谢大家看我写的博客(小白第一次写博客哈哈哈哈)如果哪里有疑问请在评论区留言,我看到会回复的。谢谢大家观看。

py文件 提取码:ryql

爬取好的表情包 提取码:xtnm

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值