python保存表情包_用Python一键保存半佛仙人所有的骚气表情包-CSDN博客

本文链接：https://blog.csdn.net/weixin_40001805/article/details/113504656

阅读文本大概需要 3 分钟

出处：Python知识圈

作者：pk哥

2019年发现两个有意思而且内容比较硬核的公众号。都是同一个人运营的，我们都叫他半佛老师，现实中的职业是风控，公众号内容涉及揭秘灰产的一些坑和硬核科普。文章内容硬核外，再配上大量的沙雕表情包。让整个文章非常有趣。不到一年，两个公众号，每篇文章都有10w+ 的阅读量。19 年年底。半佛老师入驻了 B 站。制作的 B 站视频文案上也和公众号文章一样硬核，配上大量的沙雕表情包。让看视频的读者有时候看着表情包在那里傻笑(包括我)，目前 B 站 327 万粉，相当的硬核。

就这样，每天有大量的读者在半佛老师的公众号和 B 站之间来回横向跳动。

说了这么多，今天这篇文章不是给半佛老师打广告的。我仅仅只是我馋他的表情包了。所以今天我用爬虫批量的保存半佛老师公众号文章里面所有的沙雕表情包。

周末在 B 站发了一个保存半佛老师的骚表情包的视频，目前播放量 12万，8000+点赞，大家可以点击文末「阅读原文」直达视频页面。

半佛老师有两个公众号。据我观察，仙人jump 公众号的表情包相对来说多一些。所以今天就以这个公众号为目标。来批量保存里面的沙雕图片或者表情包。

单篇文章表情包爬取

首先。我们要学会爬取一篇文章里面所有的表情包或者图片。比如我们指定一篇文章，打开文章，查看页面源代码。

通过简单查找，我们就可以看到。文章的图片都在date-src后面。

我们用正则表达式去提取这些链接。所有的链接都提取出来，以列表的形式返回。

然后我们需要写一个下载图片的方法。

这样我们用一个for循环就可以把这篇文章里面所有的表情包或者图片全部下载下来了。

所有文章表情包爬取

接下来第2步。我们是需要保存一个公众号所有文章里面所有的表情包或者图片，所以这一步我们需要获取这个公众号所有文章的链接地址。之前我也写过一篇文章，将一个公众号里面所有文章的链接和标题全部爬取下来：拒绝低效！Python教你爬虫公众号文章和链接

我们通过 Charles 抓包，直接抓取电脑 PC 端公众号。

我们通过上滑公众号历史文章，在抓取的链接里面我们可以看到请求和具体的返回数据。它的返回是以 Json 信息的形式。文章的链接就在 Json 信息里面。

这个 Json 看不全，我们复制到在线 json 解析工具里转换一下。

分析请求数据我们发现。链接里面除了 offset 是变化的，其他都是不变的。

用 requests 库请求链接的话，我们是需要给出 headers 信息和 cookies 信息的，笨办法的话，我们可以手动在请求头 Headers 里面找，然后复制过来。这里教大家一个非常简单的方法，我们直接右键，选择 Copy Curl Request。

复制完之后，我们放在转换地址里面。

https://curl.trillworks.com/

在左边粘贴刚才复制的 curl request，下面的语言默认是 Python。右边就会同步转换为 Python requests。

我们把右边的 Python requests 直接复制到编辑器里面就可以了。内容包括 hearders 信息和 cookies 信息，还有对应的参数，这样就避免我们对 cookies 和 headers 一个个去粘复制粘贴。这样是不是比较方便和简单！

这里有个地方注意下，复制过来的 params 里面有两个值需要去掉，offset 和 count。

因为 offset 我需要把它做成动态的，我把它们放在了开头的基础链接里。

通过 requests 库请求我们就可以获取返回的 Json 信息。然后我们提取 Json 信息里面的文章链接，为了全部获取所有文章。offset 值我们需要放在 range 里面，以 10 的步数往上增长， offset 最大值是多少呢？我们可以通过抓包获取，把公众号文章一直上滑到底，也就是滑动公众号的第 1 篇文章，我们点击这个请求，就可以看到里面的offset值。