分布分析
对数据的分布情况进行描述,从而对事件的发生规律有准确的认识
-
定量数据
目的是可以让我们了解:- 事件发生的一般结果是什么 --集中趋势
- 事件结果的变化情况 – 离中趋势
- 事件各个结果的发生概率是什么 --图形特征
定量分析的指标:
- 中心位置/集中趋势 :均值、中位数、众数、四分位数
- 分散程度/离中趋势:方差、标准差、极差、变异系数{标准差/平均值}
同一对象不同时间的波动:
方差大:受外界因素影响较大,可以通过特征的贡献度分析析,寻找影响波动的原因。查看是否存在周期性
方差小:可以通过时间序列等方法进行预测
同一对象相同时间的波动:
方差大:各个对象间的差异较大,可以寻找差异大的原因,异常值中一般蕴藏着机会
方差小:各对象之间的差异不大,对象的属性对结果的影响不大
- 图形特征
离散性随机变量的类型:
- 0-1 分布 :某一件事发生的结果只有0和1两种取值
- 二项分布:每次试验中只有两种可能的结果,而且两种发生与否互相对立与其它各次试验结果无关,
事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,
当试验次数为1时,二项分布服从0-1分布。
- 泊松分布:当某个事件出现的概率很小,但它又是无时无刻随时可能出现的,
那么当我们现在要求出一段时间内发生这种事件次数的概率时,
就可以全用泊松分布来计算概率