今天看了百度有关数据分析的PPT讲解,以下是一些笔记。
1、分层抽样的重要性,但是这个是针对分析对象的体量,我们无法全部采集的情况下,需要考虑的问题
2、细分分类,得到细致的结论。但是要保证细分之后的数据足够,确保最后统计结果的有效性。
3、对于样本的分析,我们经常需要查看一下几个特征:
--频率度量:众数
--位置度量:均值和中位数
--散度度量:极差和方差
--数据分布:频率表、直方图
--多圆汇总统计:相关矩阵、协方差矩阵
4、多维度多层次汇总观察数据的技术。OLAP概念。
补充:
正态分布是许多统计方法的理论基础。 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。