探索性数据分析-如何描述业务量数据

探索性数据分析-如何描述业务量数据

描述业务量的特征:均值、标准差、相关系数

均值代表的是集中趋势(整体的趋势、整体发展方向、整体水平);

标准差代表的是离中趋势(描述事物的波动程度,在一定程度上也代表着风险);

相关系数代表的是相关分析(代表的是两种事物之间同向变动或者反向变动的关系);

集中趋势
中位数均值众数
优点对极端值不敏感信息量大(数据参与的多)简单直观
缺点对极端值不敏感对极端值敏感信息量小(数据参与的较少)

左偏分布

众数 > 中位数 > 均值

正态分布

均值 = 中位数 = 众数

右偏分布

均值 > 中位数 > 众数

结论:均值总在偏的一侧。中位数总数在中间。

当发生左偏分布或者右偏分布的时候,我们采取中位数会更具有代表性。

离散程度(离中趋势)

极差:最大值 – 最小值

标准差:每个数据减去均值的平方和/数据的个数,最后开根号。可以用来展示值与均值间的差距。实际上是计算距离的公式。每个点到均值的距离之和。
方差:标准差的平方。
变异系数:(标准差/平均值)* 100%。当我们比较两组数据的离散程度的时候,如果两组数据的测量尺度相差太大,或者数据的量纲不同,我们可以考虑使用变异系数来消除测量尺度和量纲的影响。(主要是用来对数据的波动进行一些比较。两组数据的量级不一样的时候)

相关系数

相关系数是用来 描述两种数据的同向变动关系。我们最常见的是皮尔森相关系数、斯皮尔曼等级相关系数。
在这里插入图片描述
皮尔森相关系数的值为-1到1。
1)如果值为-1的话,说明两组数据之间的关系为完全相反的关系。(a向东,b就向西。变化是完全相反的)
2)如果皮尔森相关系数的值为1的话,说明两组数据的变化是完全协同变动的(a向东走10步,b就向东走10步)。
3)如果皮尔森相关系数为0的话,就意味着两组数据完全没有关系。

我们如何看待两组数据相关性的强弱呢?
1、如果r的绝对值>0.8,就说明高度相关
2、如果r的绝对值<0.3,就说明相关性极弱
3、如果r的绝对值0.3<r<0.5,就说明中度相关

在这里插入图片描述

我们在解决线性的问题的时候,使用的是皮尔森相关系数。当我们遇到非线性的问题时,(例如售货员售卖货物进行提成,卖前十件的提成、卖11-20的提成,卖21-30的提成,都是不一样的,这就是非线性相关的问题)我们就可以考虑使用皮斯尔曼等级相关系数进行处理。

相关不等于因果。只是一种相关的关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大油头儿

你的鼓励将是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值