小趴趴--知乎精华回答的非专业大数据统计

入坑知乎三年有余,数月前灵光闪现,做个网页爬虫,专爬知乎下的精华回答,作统计分析。
以下,即是此项目的分析结果,希望能从另一个角度呈现出不一样的知乎。

代码

“talk is cheap, show me the code!” --屁话少说,放码过来。心急的朋友可以直接戳链接看源码,用的是Python3:
https://github.com/SmileXie/zhihu_crawler

算法简述

1.爬虫算法

根话题的话题树为启始,按广度优先遍历各子话题。话题的遍历深度为3。解析各话题下的精华回答。
知乎的话题树.png

2.收集数量

目前收集的信息共计50539个精华回答。

3.分析内容

  • 精华回答的点赞数,答案长度等;
  • 答题用户的id,点赞数,地区,性别,学历,学校,专业等;

统计结果

1.匿名答主

50539篇精华回答中,有3308篇的回答者选择了匿名发布答案。

匿名答主

2.答主性别

男15740,女5749.是否从一个侧面印证了知乎上程序员占了很大的比例.
精华回答答主性别

3.答主受教育情况

按答主的所在(毕业)学校统计,TOP10的学校是:

答主学校TOP10
可以看出,中国的顶尖高校对知乎的精华回答贡献颇多。

按答主所在的专业统计,TOP10专业是:

答主专业TOP10
果然是程序猿的天堂。(上面的数据,我针对“计算机”和“金融”的数据做了处理,把“计算机”“计算机科学”“计算机科学与技术”合并为“计算机”,把“金融”和“金融学”合并为“金融”)

4.精华回答的赞同数

按精华回答所获得的赞同数落在的区间,做统计
这里写图片描述

赞同数区间此区间内的精华回答数量
0~499946546
5000~99992623
10000~14999713
15000~19999305
20000~24999154
25000~2999994
30000~3499944
35000~3999922
40000~4499916
45000~499998
50000~549994
55000~599993
60000~649993
65000~699990
70000~749992
75000~799991
80000~849990
85000~899990
90000~949991
95000~999990

可见,大多数精华回答获得的赞同数是处于0~4999范围内的。
目前统计到的最高票回答是这篇:《哪些素质很重要,却是读书学不来的》中肥肥猫的回答,共获得了91433个赞同。

5.回答字数

如果按以下标准将精华回答按字数分类:

字数分类
0~99短篇
100~999中篇
1000~9999长篇
10000以上超长篇

那么,精华回答的字数分布如下:
精华回答的字数分布
看来各位答主对没少在知乎上码字。长篇的数量甚至超越了短篇和中篇。
目前收集到的最长字数回答是:《人究竟能抠到什么程度》中郭永年的回答,答主扬扬洒洒写了98904字,敢情是在知乎上写小说了啊。

后记

作为一个对Python和C都有使用的程序员,在开发的过程中不断地领略着这两种语言的巨大差异。
Python把对开发者友好做到了极致,牺牲了性能。
C把性能做到了极致,牺牲了对开发者的友好。
这个项目只用了500行Python,如果换作500行C,估计只能完成上述功能的1/10吧。
最后再贴一遍源码:
https://github.com/SmileXie/zhihu_crawler

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值