关于CSDN圈子的统计

我真是无聊啊。今天有一大堆事要做,就是静不下心来。偏偏干点别的闲事聚精会神。刚才居然花了点时间写了个小程序,把CSDN有关CSDN圈子的数据抓到Excel里,做了点统计。CSDN没有提供API,所以抓数据只好“刮页”了。还好,CSDN的网页程序员相当不错(反正比我牛多了),做的网页干净,全用DIV+CSS排版。Table就是用来放数据的。圈子列表的URL是http://blog.csdn.net/grouplist.aspx?keyword=&O=ViewCount&IsDesc=1&p=1, 要翻页,改动最后那个p的值就行了。每页就一个表,用来装关于圈子的数据。这样我的程序简单多了。运行了一下,耗时1404秒,抓了131页,得到2463个圈子。平均每页10秒多,看来网速还是很慢。比较有意思的数据。我把一些有意思的数据加黑了。80%以上的群没有一篇文章。79.8%的群没有一个成员。不到1%的群发了超过30%的帖子。不到1%的圈子拥有超过46%的成员。长尾巴啊长尾巴。另一方面,看来圈子的利用率一般。平均访问/人才65。

Statistic成员数文章数访问数访问/人文章/人访问/文章
No. of observations246224622462246224622462
No. of missing values000000
Sum of weights246224622462246224622462
Minimum0.0000.0001.0000.0000.0000.000
Maximum202.000172864.0008734.000605.00021247.000229.000
Freq. of minimum1965202718196520292027
Freq. of maximum111111
Range202.000172864.0008733.000605.00021247.000229.000
1st Quartile0.0000.0006.0000.0000.0000.000
Median0.0000.00013.0000.0000.0000.000
3rd Quartile0.0000.00024.0000.0000.0000.000
Sum2375.000562812.000161978.00032795.892161380.1513119.706
Mean0.965228.60065.79113.32165.5481.267
Variance (n)44.86016742560.226133050.8391619.698593022.32282.830
Variance (n-1)44.87816749363.380133104.9021620.356593263.29082.864
Standard deviation (n)6.6984091.767364.76140.245770.0799.101
Standard deviation (n-1)6.6994092.599364.83540.254770.2369.103
Variation coefficient6.94317.8995.5443.02111.7487.182
Skewness (Pearson)18.82134.25414.7116.26918.69116.768
Skewness (Fisher)18.83234.27514.7206.27318.70216.779
Skewness (Bowley)  0.222   
Kurtosis (Pearson)452.3891341.878266.44257.855402.560344.779
Kurtosis (Fisher)453.3111344.610266.98657.975403.381345.483
Standard error of the mean0.13582.4647.3510.81115.5200.183
Lower bound on mean (95%)0.70066.89351.37611.73035.1150.907
Upper bound on mean (95%)1.229390.30680.20714.91195.9821.627
Mean absolute deviation1.540424.96691.69321.461120.7362.174
Median absolute deviation0.0000.0008.0000.0000.0000.000
Geometric mean  14.289   
Geometric standard deviation  3.721   
Harmonic mean  7.781   


下面是一些图:
 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值