python爬高考数据_百度贴吧“高考吧”爬虫分析(Python版)

(2)去重后的链接数:2026735

(3)爬取成功的链接数:2016964

(4)被隐藏或删除的链接数:9771(如http://tieba.baidu.com/p/4858811200)

(5)爬取所用的程序语言:Python

(6)数据处理:Python+PowerBI+Excel(注:Python+Excel+PowerPivot运行缓慢,经常无响应,故弃之)

贴吧概况

高考吧的发帖人数占比与中考吧相同,0回复率更高一点,高考吧的友好程度更低。经统计,发帖用户中会员人数占发帖总人数的0.02%,大概学生更愿意花钱买书吧。。。(我也爬取了中考吧所有的帖子,所以有时会与高考吧进行对比)

年发帖量

2013年发帖量最高,2016年发帖量环比下降超过50%,这一点和中考吧极其相似,高考吧发帖量近几年下降明显,但是发帖量的数量级依然可以让人侧目,不是小贴吧能够相提并论的。

月发帖量

6月份高考,发帖量也最高

时发帖量

晚上10点发帖量最高,好像熬夜特征挺明显的,在下面会对熬夜这一问题做深入分析。

周发帖量

周末发帖量显著增加,不是很明白这一现象,高中应该没有周末吧,但是与高考吧的同学交流,并不是所有的学校都没有周末的。

用户等级分布

低等级用户占比较小,用户对贴吧依赖度较高

十大热帖

热帖反映了用户最关心的问题,有什么比看热帖更带劲的事情吗?

(注:热帖的详细网址需要加http://tieba.baidu.com,如http://tieba.baidu.com/p/2240661399,下同)

2013年十大热帖

跟踪每年的热帖,及时发现用户兴趣点的变化,2013年作为最活跃的年份,帖子回复数的量级也不同一般年份

2016年十大热帖

近几年的活跃低谷年份—2016年,热帖回复数的最大值比2013年热帖的最小值要小得多,这届的吧友不行?开玩笑的,:)

十大活跃用户

找到活跃用户,然后可以做什么呢?追踪活跃用户的发言,维护活跃用户体系

2013年十大活跃用户

江山代有才人出,各领风骚数百年(为了保护用户隐私,原谅小编给用户名加上部分马赛克)

2016年十大活跃用户

深入分析2013年发帖情况

分析2013年每天的发帖量情况,3、4、5、6和7月的发帖量较大,特别是6月考完和出分的那段时间.

分析3、4、5、6和7月份的发帖时间,3、4和5月份中熬夜人数占比较大,但是逐月减小,到了6月份后,熬夜比例减少一半左右,说明大部分人有好的考试习惯嘛。不能只看时发帖量的大趋势,要保持深挖数据的好习惯

贴吧关键词

200多万个标题做成词云

总结

从高考吧的分析上来看,高考学生关心的内容和喜欢的内容形式,与中考吧类似。近年来,高考吧的发帖量不断下降,与百度贴吧活跃度走低的大环境密切相关,贴吧作为一个社区平台,社交功能做的并不好,对增强用户粘性很不利。

写在后面

热爱Python、喜欢数据可视化、关注K12在线教育产品运营,愿意付出更多的努力去了解,如果有任何的建议或者批评,请不吝赐教,谢谢。

——周文闻

摘自:EasyCharts

天善学院双十一特价课程火爆进行中,内容涵盖:商业智能BI、大数据分析与挖掘、R语言&Python、人工智能与机器学习、基础&业务&求职等,全场五折,送五门微课,先到先得!https://www.hellobi.com/1111

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值