我真是无聊啊。今天有一大堆事要做,就是静不下心来。偏偏干点别的闲事聚精会神。刚才居然花了点时间写了个小程序,把CSDN有关CSDN圈子的数据抓到Excel里,做了点统计。CSDN没有提供API,所以抓数据只好“刮页”了。还好,CSDN的网页程序员相当不错(反正比我牛多了),做的网页干净,全用DIV+CSS排版。Table就是用来放数据的。圈子列表的URL是http://blog.csdn.net/grouplist.aspx?keyword=&O=ViewCount&IsDesc=1&p=1, 要翻页,改动最后那个p的值就行了。每页就一个表,用来装关于圈子的数据。这样我的程序简单多了。运行了一下,耗时1404秒,抓了131页,得到2463个圈子。平均每页10秒多,看来网速还是很慢。比较有意思的数据。我把一些有意思的数据加黑了。80%以上的群没有一篇文章。79.8%的群没有一个成员。不到1%的群发了超过30%的帖子。不到1%的圈子拥有超过46%的成员。长尾巴啊长尾巴。另一方面,看来圈子的利用率一般。平均访问/人才65。
| Statistic |
成员数 |
文章数 |
访问数 |
访问/人 |
文章/人 |
访问/文章 |
| No. of observations |
2462 |
2462 |
2462 |
2462 |
2462 |
2462 |
| No. of missing values |
0 |
0 |
0 |
0 |
0 |
0 |
| Sum of weights |
2462 |
2462 |
2462 |
2462 |
2462 |
2462 |
| Minimum |
0.000 |
0.000 |
1.000 |
0.000 |
0.000 |
0.000 |
| Maximum |
202.000 |
172864.000 |
8734.000 |
605.000 |
21247.000 |
229.000 |
| Freq. of minimum |
1965 |
2027 |
18 |
1965 |
2029 |
2027 |
| Freq. of maximum |
1 |
1 |
1 |
1 |
1 |
1 |
| Range |
202.000 |
172864.000 |
8733.000 |
605.000 |
21247.000 |
229.000 |
| 1st Quartile |
0.000 |
0.000 |
6.000 |
0.000 |
0.000 |
0.000 |
| Median |
0.000 |
0.000 |
13.000 |
0.000 |
0.000 |
0.000 |
| 3rd Quartile |
0.000 |
0.000 |
24.000 |
0.000 |
0.000 |
0.000 |
| Sum |
2375.000 |
562812.000 |
161978.000 |
32795.892 |
161380.151 |
3119.706 |
| Mean |
0.965 |
228.600 |
65.791 |
13.321 |
65.548 |
1.267 |
| Variance (n) |
44.860 |
16742560.226 |
133050.839 |
1619.698 |
593022.322 |
82.830 |
| Variance (n-1) |
44.878 |
16749363.380 |
133104.902 |
1620.356 |
593263.290 |
82.864 |
| Standard deviation (n) |
6.698 |
4091.767 |
364.761 |
40.245 |
770.079 |
9.101 |
| Standard deviation (n-1) |
6.699 |
4092.599 |
364.835 |
40.254 |
770.236 |
9.103 |
| Variation coefficient |
6.943 |
17.899 |
5.544 |
3.021 |
11.748 |
7.182 |
| Skewness (Pearson) |
18.821 |
34.254 |
14.711 |
6.269 |
18.691 |
16.768 |
| Skewness (Fisher) |
18.832 |
34.275 |
14.720 |
6.273 |
18.702 |
16.779 |
| Skewness (Bowley) |
|
|
0.222 |
|
|
|
| Kurtosis (Pearson) |
452.389 |
1341.878 |
266.442 |
57.855 |
402.560 |
344.779 |
| Kurtosis (Fisher) |
453.311 |
1344.610 |
266.986 |
57.975 |
403.381 |
345.483 |
| Standard error of the mean |
0.135 |
82.464 |
7.351 |
0.811 |
15.520 |
0.183 |
| Lower bound on mean (95%) |
0.700 |
66.893 |
51.376 |
11.730 |
35.115 |
0.907 |
| Upper bound on mean (95%) |
1.229 |
390.306 |
80.207 |
14.911 |
95.982 |
1.627 |
| Mean absolute deviation |
1.540 |
424.966 |
91.693 |
21.461 |
120.736 |
2.174 |
| Median absolute deviation |
0.000 |
0.000 |
8.000 |
0.000 |
0.000 |
0.000 |
| Geometric mean |
|
|
14.289 |
|
|
|
| Geometric standard deviation |
|
|
3.721 |
|
|
|
| Harmonic mean |
|
|
7.781 |
|
|
|
下面是一些图:



发表于 @ 2006年08月23日 12:41:00|评论(loading...)|编辑