- 数据分析:包括业务理解,数据采集,数据清洗,数据探索,数据可视化,数据建模,模型可视化,分析结果。
- 数据挖掘:是在大型数据集中运用人工智能,机器学习,统计学发现模式的过程。
- 数据分析八个层次:常规报表,即席查询,多维分析,警报,统计分析,预报,预测性建模和优化。
- CRISP-DM方法论:业务理解,数据理解,数据准备,建模,模型评估和模型发布。
- SEMMA方法论: 探索—修改—建模—评估—抽样—探索
- 数据的计量尺度:分类变量(名义测量),顺序变量(次序测量),数据变量(间距测量,比率测量)
- 几何平均数:用于计算平均成长率,n个比率相乘再开n次。
- 异众比率:1-(众数个数/总体)
- 方差是西格玛平方,标准差是西格玛。
- 图像峰值靠左是右偏,图像峰值靠右是左偏。
- 峰度是变量两边拖尾的情况。如果一个变量是尖峰的,在统计学中出现超过2倍标准差的数值的概率会大于5%,3倍的会大于1%。
- 在正态分布中,均值=中位数=众数。
- 在正态分布中,变量取值距离在均值2倍标准差内出现的概率为95%。
- 在正态分布中,一个标准差68%,2个标准差95%,3个标准差99.7%。
- 点估计命中目标的概率是极低的,所以要用区间估计。其中会用区间估计的平均数估计总体的平均数