c语言如何判断数据是否符合正态分布_正态分布的应用——基于描述性统计与分布的推论...

6ead147a3e7270f0754aa4cfa931fcc8.png

正态分布的应用——基于描述性统计与分布的推论

内容导入:

大家好,这里是每天分析一点点。

本期给大家介绍的是数据分析基础系列,包括分布的基本类型,集中趋势与分布的关系,离散趋势与分布的关系,再结合国民收入案例探讨分布与描述性统计分析在实际生活的应用。

文章内容适合数据分析小白,内容深入浅出,案例贴合实际。

下期给大家介绍偏度系数,欢迎大家关注。

概念介绍:

分布的类型:

上期主要给大家介绍了正态分布,其实除了正态分布,还有很多的分布类型,今天就给大家科普一下。标准的二分布、均匀分布这样的古典概型产生的分布,在这里就不给大家介绍了。本次介绍的分布,也是统计中较为常用的类型。

01

3d9d3d93d6e9909be8f9b1692d5ca808.png

T分布

如果已知等待分析的总体服从正态分布,从总体中抽取容量为n的所有可能样本,对每个样本都计算出它们相应的T统计量,则所有T统计量的值将组成一个连续型概率分布,这个分布就是T分布,T分布的概率密度函数为:

fcc1497f7d688c3381858031dd95f969.png

t代表T统计量的值;v表示自由度,等于样本容量n减去1;c为常数,使T分布函数曲线下的面积等于1。

T分布有什么功能呢?大家是否听说过系数T检验,样本T检验。T分布可以用来判断两个连续变量的显著性,经常用于判断线性回归中的系数是否显著,如果不显著,需要剔除该变量重新拟合。一般情况是T检验的双侧P值小于5%,视为显著,大于5%视为不显著。比如身高与年龄是否有显著性关系,GDP与投资是否有显著性关系。

02

3d9d3d93d6e9909be8f9b1692d5ca808.png

卡方(χ2 )分布

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。概率密度函数:

26a1ca9fb254b95acd30c3fe85bd9b35.png

χ2代表卡方统计量;e是自然底数,等于2.72;v代表自由度,等于样本容量n-1;c代表调节常数,使得卡方分布曲线下方的总面积等于1。

6659bfc6372d97788ae29f80950293cd.png

卡方分布,是用来检测方差的,通常检验一个变量两个类型的方差是否显著,通常用于逻辑回归中。举个例子,一个班共60个人,男的35人,女的25人,分析男女身高水平是否有显著差异,将60个身高数据用男女分开,然后应用卡方分布进行检验。一般情况是卡方检验的双侧P值小于5%,视为显著,大于5%视为不显著。二分类逻辑回归的显著性检验,应用的就是卡方检验。

03

3d9d3d93d6e9909be8f9b1692d5ca808.png

F分布

两个正态分布总体之间的方差关系。

e6cc83143430166048be866cbb55476d.png 633a114f6617a6046b9b4cd4813acf87.png

F统计量其实可以被认为是由两个卡方(χ2)统计量相除得到的,一般情况是默认将卡方值较大的总体作为分母,卡方值较小的总体作为分子。概率密度函数为:

187f257d8f02de620d1796640d012dca.png

v1表示F统计量分子的自由度;v2表示F统计量分母的自由度;c代表修正常数,它使得F分布曲线下方的总面积等于1。

F分布又是用来干什么的呢?做数据分析的你一定用过,但是你未必知道,F检验可以用来检验方差和函数,是的,检验函数,线性回归与逻辑回归的模型显著性,就可以用F分布进行检验。一般情况是F检验的双侧P值小于5%,视为显著,大于5%视为不显著。

分布与描述性统计分析的关系:

上期问了大家几个问题,如何描述频度分布图的特点呢?

1、左边数据多还是右边数据多?

2、左边陡峭还是右边陡峭?

3、是否存在极大极小的离群值?

4、是‘凸’的还是‘凹’的?

5、总体的形状像什么?

分布的数据特点已经相关的作用刚才已经给大家介绍了。分布的形状、陡峭程度、离群值特点与描述性通过相关指标有关。接下来,我们来进行具体的了解。

集中趋势与分布的关系:

经过前几期的了解,我们知道平均值、中位数、众数是集中趋势的指标。但是,并不是所有数据中,平均值与中位数都代表这数据的集中趋势。例如,像正态分布这样的倒U型分布数据,平均值、中位数、众数就可以代表数据的集中趋势。形如U型的数据分布,只有众数代表集中趋势,比如49个1,49个99,1个50这样的数据,平均值中位数是50,众数是1和99,这个时候只有众数代表数据集中趋势。

另外,平均值、中位数、众数的位置,与分布图形的左右形状有关,当均值小于中位数小于众数时,分布形状是右边隆起,左边有长长的尾巴;当均值大于中位数大于众数时,分布形状是左边隆起,右边有长长的尾巴。

126fb39c461dbd8d724bd1e75317e6fa.png

离散趋势与分布的关系:

离散趋势的指标是极差、方差与标准差,这次我们主要讨论标准差。刚才给大家讲了数据向左,或者向右移动的指标判断方式;现在给大家介绍分布是‘凸’的还是‘凹’的指标。在所有分布中,都是方差越大,数据分布越‘凸’,方差越小,数据分布越‘凹’。如何判定方差是大是小呢?参照相同均值的正态分布即可。

541bde915220f6233b5c2787517acbb6.png

而且,‘凸’与‘凹’还有更进一步的应用。‘凸’代表众数比较集中,并且两端急速下降,展现出来后发现两侧的值与集中的值相差很大,也就意味着,存在着离群值,具体离群值在大的一边还是小的一边,结合数据分布的偏向就可以看出来。‘凹’代表众数不是很集中,两边下降平缓,数值差距不大,意味着数据没有明显离群值。

综合应用场景:

接下来我们来看个有趣的案例吧。

国家收入水平案例

(1)一个白领,工资水平高于周围的人,但是小于国家统计行业工资平均水平,为什么?

(2)x为收入,y为对应的人数

x=['1000','2000','3000','4000','5000','6000','7000','8000','9000','10000','20000','30000','40000','50000','1000000','2000000']

y=[1000,3000,7000,10000,14000,16000,14000,8000,1000,500,100,100,100,100,50,50]

要求:计算数据众数、中位数与平均值,解释上述现象,并评价国家整体收入状况。

根据数据,我们画出图形,计算出指标,看看到底是怎么回事?

dd7283a61bbe0af2aaee187aa6439df8.png 757b9b538e6a8a928738b112f9577ab1.png

图形看着比较“凸”,右侧下降陡峭,平均值大于中位数和众数,存在右侧极大离群值。

结论一:我们看到的是众数,所以收入都比他们高,当将极大值进行平均时,拉高了整体的收入水平

结论二:平均值大于中位数与众数,存在极大值,国家收入差距大;数据集中在众数与中位数周围,大多数人的收入在同一水平;整体收入水平较低,大多数人收入水平在平均值以下。

本期分享到这里,我们会在每周的周三和周五持续更新,咱们下期再见,期待您的光临。

44e5ca167da5e02ffb09eb99fb5a2e90.png 22e483288a63a0427a890afb837ffa16.gif
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值