一、描述统计-位置的度量
平均值,众数,中位数,百分位数,四分位数
二、描述统计-变异程度度量
标准差
方差
四分位间距
偏度:描述数据偏移方向和程度的度量,统计数据的非对称特征
三、单变量数据探索常规方法
五位数概括法:最小值,最大值,中位数,第一四分位数,第三四分位数
单分类变量探索:频数
四、双变量探索
皮尔逊相关系数:计算两个数值之间的线性相关关系,非线性关系皮尔逊相关系数为0
斯皮尔曼相关系数:可以处理非线性数据,也可以处理非线性数据,缺点:处理线性相关系数没有皮尔逊相关系统好,准确率没有皮尔逊相关系数高,优点:可以处理非线性相关系数,对异常值不敏感
肯德尔相关系数:处理分类数据
五、异常检测
切比雪夫定理:(5sigma法)
- 在任意一个数据集中
- 所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
- 所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
- 所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内
经验法则:(3sigma法)
- 当该数据集符合正态分布
- 那么有68.3%的数据位于平均数1个标准差范围内。
- 那么有95.5%的数据位于平均数2个标准差范围内。
- 那么有99.7%的数据位于平均数3个标准差范围内。
异常值处理:
- 删除含有异常值的记录
- 用中位数替代
- 用前后两个观测值的平均值修正
若有收获,就点个赞吧