最近在学习统计学,为数据挖掘学习打基础。以下是对一些简单统计学知识的归纳介绍。
频数
也叫次数,指一个特定组或者特定区域内的对象数据目,表现各对象的频繁程度。例如:游戏公司开发的游戏下载量
类别 | 数量 |
体育 | 35896 |
策略 | 343892 |
动作 | 767653 |
射击 | 34556 |
其他 | 678 |
游戏下载数据量代表了各游戏类别的频数,频数越大说明该类型的游戏越受到大众喜欢,以上的频数可以为公司游戏开发方向进行指导。
频数密度
指频数在分组数据中的密集程度。频数密度 = 频数 / 组距。
例如:
类别 | 游戏种类数量 | 数量 | 频数密度 |
体育 | 3 | 35896 | 11965.3 |
策略 | 2 | 343892 | 171946.0 |
动作 | 11 | 767653 | 69786.6 |
射击 | 6 | 34556 | 5759.3 |
其他 | 3 | 678 | 226.0 |
表中可以明显看出虽然策略游戏下载总量低于动作游戏,但是策略游戏的频数密度远高于动作游戏,由此可以综合考虑游戏爱好者的游戏倾向。
有上可以看出频数密度展现了某个特定区间中的数据密集度。通过这种方法可以对有差别的区间进行比较。为决策者提供数据方向。
累计频数
累积频数就是将各类别的频数逐级累加起来。其方法有两种:
一是从类别顺序的开始一方向类别顺序的最后一方累加频数(定距数据和定比数据则是从变量值小的一方向变量值大的一方累加频数),称为向上累积;
二是从类别顺序的最后一方向类别顺序的开始一方累加频数(定距数据和定比数据则是从变量值大的一方向变量值小的一方累加频数),称为向下累积。通过累积频数,可以很容易看出某一类别(或数值)以下及某一类别(或数值)以上的频数之和。
累计频数用曲线图可以很直观的体现某一对象在一个方向上的变化趋势。例如下图: