公众号“企鹅爸爸”内容爬取&简析

公众号“企鹅爸爸”内容爬取&简析

1.前言

  1. 本篇主要围绕爬取和简析“企鹅爸爸”公众号中商城和历史文章的部分内容。(报告中爬取部分的代码以及采集到的具体数据有所省略)
  2. “企鹅爸爸”商城销售量信息较易爬取。共采集了有销售量的商品总数94条。
  3. 鹅厂的微信公众号,历史文章的反爬非常强,如果构建企业级爬虫成本极高。但为了满足初步分析的目的,我们可以另辟蹊径,先快速获取少量数据(最近的50篇文章)。ps:目前已经没有点赞数了。

2.“企鹅爸爸”商城商品销售情况爬取及简析

  1. “企鹅爸爸”在售商品价格分布情况:
    由图可知,“企鹅爸爸”在售商品的价格主要分布在200元内,总体平均价格为113元,50元左右的商品数最多。
    在这里插入图片描述
  2. “企鹅爸爸”各年龄层在售商品数及比例情况:
    由以下两图可知,各年龄层在售商品中,3岁+商品数最多。
    另外,3-6岁+的商品占据了整体在售产品数量的73.63%
    在这里插入图片描述
    在这里插入图片描述
  3. 哪些是爆款?
    有下表可知(销售量占中体前80%的商品列表),销售量前三名都是三岁+的产品(具体特点可以再仔细研究)。
    另外,通过计算,我们可以发现表中商品总数为26,占据整体有销量商品的27.66%,但占据了80%的销量,比较符合帕累托法则。
    在这里插入图片描述

3.“企鹅爸爸”公众号最近50篇文章评论数等信息爬取及简析

  1. 文章基本信息示例:
    最受欢迎的文章都是比较具有热点或话题性的内容
    在这里插入图片描述
  2. 是否原创对阅读数的影响:
    从数据上来看差别不大,原创平均阅读数上稍差,标准差较小,具体情况性质可以再仔细探讨。
    在这里插入图片描述
  3. 近50篇公众号阅读数分布密度图:
    每篇文章平均阅读数为4790,
    在这里插入图片描述

4.总结

1.本篇是简单爬取信息和分析的作业,“企鹅爸爸”具体内容有待深入研究。
2.爬虫部分占据整体过程的大部分的时间,建议聘用专业爬虫工程师或者支付一点费用直接购买相关服务,会省去大量时间等成本。
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值