数据的探索性分析

一 异常值的分析

1. 简单统计量分析:极差,最大值,最小值
2. 3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。
如果数据不服从正态分布,也可以用标准差作为σ来进行倍数描述
3. 箱型图分析
在箱型图中,异常值被定义为小于QL-1.5IQR或大于QU+1.5IQR的值
QL:下四分位数,全部观察值中有四分之一的数据取值比它小
QU:上四分位数,全部观察值中有四分之一的数据取值比它大
IQR:是上四分位数和下四分位数之差,其间包含了全部观察值的一半

二 一致性分析

理解:数据的矛盾性、不相容性
不一致书产生的原因:主要发生在数据集成过程,包括不同数据源集成、数据存放未及时更新

三 数据特征分析

1. 分布分析
定量数据分析:频率分布表、频率分布直方图、茎叶图
定性数据分析:根据变量分类类型来分组,包括饼状图、条形图

2. 对比分析
(1)绝对数比较:利用绝对数进行对比,寻找差异

(2)相对数分析:利用两个有联系的指标对比计算,反映客观现象之间数量联系程度的综合指标

结构相对数:总体内部分数值/总体全部数值,eg.产品合格率
比例相对数:总体内不同部分的数值进行对比,eg.性别比例,投资消费比例
比较相对数:同一时期两个性质相同的指标进行对比,eg.不同行业某项指标对比
强度相对数:性质不同但有一定联系的总量指标进行对比,eg.元/人
计划完成程度相对数:某一时期实际完成数/计划数
动态相对数:同一现象在不同时期的指标数值进行对比,eg.发展速度,增长速度
3. 统计量分析
集中趋势度量:均值、中位数、众数
离中趋势度量:极差、标准差、变异系数、四分位数间距
4. 周期性分析
是探索某个变量是否随着时间的变化呈现出某种周期性变化趋势
包括:月度周期、季度周期、周度周期、天周期、小时周期
5. 贡献度分析
又称帕累托分析,又称“八二法则”
帕累托图
6. 相关性分析
使用工具:散点图、散点图矩阵

相关性系数:
Pearson相关系数(连续变量)
Spearman相关系数(服从正态分布)
Spearman秩相关系数(不服从正太分布)
判定系数:相关系数的平方,用来衡量回归方程对y的解释程度

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值