公众号“企鹅爸爸”内容爬取&简析
1.前言
- 本篇主要围绕爬取和简析“企鹅爸爸”公众号中商城和历史文章的部分内容。(报告中爬取部分的代码以及采集到的具体数据有所省略)
- “企鹅爸爸”商城销售量信息较易爬取。共采集了有销售量的商品总数94条。
- 鹅厂的微信公众号,历史文章的反爬非常强,如果构建企业级爬虫成本极高。但为了满足初步分析的目的,我们可以另辟蹊径,先快速获取少量数据(最近的50篇文章)。ps:目前已经没有点赞数了。
2.“企鹅爸爸”商城商品销售情况爬取及简析
- “企鹅爸爸”在售商品价格分布情况:
由图可知,“企鹅爸爸”在售商品的价格主要分布在200元内,总体平均价格为113元,50元左右的商品数最多。
- “企鹅爸爸”各年龄层在售商品数及比例情况:
由以下两图可知,各年龄层在售商品中,3岁+商品数最多。
另外,3-6岁+的商品占据了整体在售产品数量的73.63%
- 哪些是爆款?
有下表可知(销售量占中体前80%的商品列表),销售量前三名都是三岁+的产品(具体特点可以再仔细研究)。
另外,通过计算,我们可以发现表中商品总数为26,占据整体有销量商品的27.66%,但占据了80%的销量,比较符合帕累托法则。
3.“企鹅爸爸”公众号最近50篇文章评论数等信息爬取及简析
- 文章基本信息示例:
最受欢迎的文章都是比较具有热点或话题性的内容
- 是否原创对阅读数的影响:
从数据上来看差别不大,原创平均阅读数上稍差,标准差较小,具体情况性质可以再仔细探讨。
- 近50篇公众号阅读数分布密度图:
每篇文章平均阅读数为4790,
4.总结
1.本篇是简单爬取信息和分析的作业,“企鹅爸爸”具体内容有待深入研究。
2.爬虫部分占据整体过程的大部分的时间,建议聘用专业爬虫工程师或者支付一点费用直接购买相关服务,会省去大量时间等成本。