学会用python网络爬虫爬取斗图网的表情包,聊微信再也不怕斗图了

31 篇文章 0 订阅
31 篇文章 0 订阅

最近总是有人跟我斗图,想了想17年中旬时在网上看过一篇关于爬取斗图网表情包的py代码,但是刚想爬的时候发现网页结构发生了变化,而且斗图网还插入了很多广告,变化其实挺大的,所以临时写了一个爬虫,简单的爬取了斗图网的表情包。从这链接上看,page表示的是第几页,我只爬取了500多页(很奇怪白天明明看到一共有一千多页的,为啥晚上就只有548页?),纯属娱乐,表情包够用就行。


 这里还是要推荐下小编的Python学习群:483546416,不管你是小白还是大牛,小编我都欢迎,不定期分享干货,包括小编自己整理的一份2017最新的Python资料和0基础入门教程,欢迎初学和进阶中的小伙伴。在不忙的时间我会给大家解惑。

重点还是在于解析网页,页面上每一栏都是一组图,这组图有一个链接指向,所以我只要提取到这个链接,再打开这个链接,然后在新的网页上提取表情图片,下载下来就行了。解析网页使用了python的xpath,剩下的就是数学思维了,循环嵌套和判断什么的。

源码截图如下(使用的是python3):


为了保留表情的动态图效果,代码中加了判断是否为gif格式的图片。


因为网速不好,所以总共等待2秒

爬取的效果图如下:


于是可以放服务器,慢慢跑,图片下载的速度还是挺快的。


需要爬虫源码或者表情包的友友们,可以私信我。

后面爬了一部分后觉得用起来不太方便,觉得还是需要给图片命个名字,要不然真正斗图的时候,找不到对应的图片也麻烦,比较难搜索,所以加了几行代码,抓取图片名字,效果图如下,需要对应的图片时候直接搜索你想要的表情包大概的名字就可以了。修改后的源码截图就没放上去了,需要的话私信或者博客。


  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值