商务大数据分析_数据探索

数据探索

数据质量分析

主要任务:检查原始数据中是否有脏数据。

脏数据:缺失值、异常值、不一致的值

缺失值分析

主要类型

①记录的缺失

②记录中某个字段信息的缺失

产生原因

①信息无法获取或获取代价高

②信息遗漏

③属性值不存在。如:未婚者配偶名字

缺失值影响

①丢失大量信息

②不确定性更加显著,模型规律难以把握

③使建模过程陷入混乱,导致不可靠输出

分析方法

①删除缺失记录

②对可能值进行插补

③不处理

异常值分析

任务:检验数据是否有录入错误以及含有不合理数据

异常值(离群点)定义:样本中个别值,其数值明显偏离其余观测值。

分析方法:简单统计量分析、3 σ \sigma σ原则、箱线图分析

简单统计量分析

​ 常用统计量为最大值、最小值,用于判断这个变量取值是否超出合理范围。比如年龄199岁,则必定存在异常值。

3 σ \sigma σ原则

条件:数据服从正态分布

定义异常值方法:测定值与平均值的偏差超过三倍标准差的值

原理:
在这里插入图片描述

如不服从正态,则用测定值与平均值的n倍标准差来描述。

箱线图分析(客观、优越性、鲁棒性)

异常值定义标准:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PK390I98-1639927967937)(C:\Users\wujia\AppData\Local\Temp\WeChat Files\0a99f5304eb534f4649e170c3bf264c.jpg)]

鲁棒性:多达25%数据可以任意远而不干扰四分位数,所以异常值不能对这个标准施加影响。

一致性分析

​ 指的是数据的矛盾性和不相容性。

特征分析

分布分析

定量变量分析

主要进行频率分布分析,分析内容:数据分布是否对称、特大或特小值的可疑值等

频率分布分析步骤:

①求极差

②决定组距和组数

③决定分点

④列出频率分布表

⑤绘制频率分布直方图

遵循的原则:

①各组互相排斥

②各组包含全部数据

③组间距最好相等

定性变量分析

​ 绘制饼图或者条形图

对比分析

绝对数比较

同个指标进行绝对离差的对比

相对数比较

结构相对数:部分数据与总体数据求比重

比例相对数:总体中不同部分数值对比

比较相对数:同一时间性质相同指标对比

强度相对数:现象强度、密度、普遍度

计划完成度相对数

动态相对数

统计量分析
周期性分析
贡献度分析
相关性分析
person相关系数

条件:数据服从正态分布
在这里插入图片描述

spearman相关系数

在这里插入图片描述

判断系数

相关系数的平方

取值范围为0-1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值