c语言如何判断数据是否符合正态分布_正态分布的应用——基于描述性统计与分布的推论...

最新推荐文章于 2022-11-26 14:59:23 发布

weixin_39594103

最新推荐文章于 2022-11-26 14:59:23 发布

阅读量732

点赞数

文章标签： c语言如何判断数据是否符合正态分布卡方分布的期望和方差均匀分布卡方分布描述性统计分析案例题正态分布是离散分布还是连续分布

正态分布的应用——基于描述性统计与分布的推论

内容导入：

大家好，这里是每天分析一点点。

本期给大家介绍的是数据分析基础系列，包括分布的基本类型，集中趋势与分布的关系，离散趋势与分布的关系，再结合国民收入案例探讨分布与描述性统计分析在实际生活的应用。

文章内容适合数据分析小白，内容深入浅出，案例贴合实际。

下期给大家介绍偏度系数，欢迎大家关注。

概念介绍：

分布的类型：

上期主要给大家介绍了正态分布，其实除了正态分布，还有很多的分布类型，今天就给大家科普一下。标准的二分布、均匀分布这样的古典概型产生的分布，在这里就不给大家介绍了。本次介绍的分布，也是统计中较为常用的类型。

T分布

如果已知等待分析的总体服从正态分布，从总体中抽取容量为n的所有可能样本，对每个样本都计算出它们相应的T统计量，则所有T统计量的值将组成一个连续型概率分布，这个分布就是T分布，T分布的概率密度函数为：

t代表T统计量的值；v表示自由度，等于样本容量n减去1；c为常数，使T分布函数曲线下的面积等于1。

T分布有什么功能呢？大家是否听说过系数T检验，样本T检验。T分布可以用来判断两个连续变量的显著性，经常用于判断线性回归中的系数是否显著，如果不显著，需要剔除该变量重新拟合。一般情况是T检验的双侧P值小于5%，视为显著，大于5%视为不显著。比如身高与年龄是否有显著性关系，GDP与投资是否有显著性关系。

卡方(χ2 )分布

若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布，则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布。概率密度函数：

χ2代表卡方统计量；e是自然底数，等于2.72；v代表自由度，等于样本容量n-1；c代表调节常数，使得卡方分布曲线下方的总面积等于1。

卡方分布，是用来检测方差的，通常检验一个变量两个类型的方差是否显著，通常用于逻辑回归中。举个例子，一个班共60个人，男的35人，女的25人，分析男女身高水平是否有显著差异，将60个身高数据用男女分开，然后应用卡方分布进行检验。一般情况是卡方检验的双侧P值小于5%，视为显著，大于5%视为不显著。二分类逻辑回归的显著性检验，应用的就是卡方检验。

F分布

两个正态分布总体之间的方差关系。

F统计量其实可以被认为是由两个卡方(χ2)统计量相除得到的，一般情况是默认将卡方值较大的总体作为分母，卡方值较小的总体作为分子。概率密度函数为：

v1表示F统计量分子的自由度；v2表示F统计量分母的自由度；c代表修正常数，它使得F分布曲线下方的总面积等于1。

F分布又是用来干什么的呢？做数据分析的你一定用过，但是你未必知道，F检验可以用来检验方差和函数，是的，检验函数，线性回归与逻辑回归的模型显著性，就可以用F分布进行检验。一般情况是F检验的双侧P值小于5%，视为显著，大于5%视为不显著。

分布与描述性统计分析的关系：

上期问了大家几个问题，如何描述频度分布图的特点呢？

1、左边数据多还是右边数据多？

2、左边陡峭还是右边陡峭？

3、是否存在极大极小的离群值？

4、是‘凸’的还是‘凹’的？

5、总体的形状像什么？

分布的数据特点已经相关的作用刚才已经给大家介绍了。分布的形状、陡峭程度、离群值特点与描述性通过相关指标有关。接下来，我们来进行具体的了解。

集中趋势与分布的关系：

经过前几期的了解，我们知道平均值、中位数、众数是集中趋势的指标。但是，并不是所有数据中，平均值与中位数都代表这数据的集中趋势。例如，像正态分布这样的倒U型分布数据，平均值、中位数、众数就可以代表数据的集中趋势。形如U型的数据分布，只有众数代表集中趋势，比如49个1，49个99，1个50这样的数据，平均值中位数是50，众数是1和99，这个时候只有众数代表数据集中趋势。

另外，平均值、中位数、众数的位置，与分布图形的左右形状有关，当均值小于中位数小于众数时，分布形状是右边隆起，左边有长长的尾巴；当均值大于中位数大于众数时，分布形状是左边隆起，右边有长长的尾巴。

离散趋势与分布的关系：

离散趋势的指标是极差、方差与标准差，这次我们主要讨论标准差。刚才给大家讲了数据向左，或者向右移动的指标判断方式；现在给大家介绍分布是‘凸’的还是‘凹’的指标。在所有分布中，都是方差越大，数据分布越‘凸’，方差越小，数据分布越‘凹’。如何判定方差是大是小呢？参照相同均值的正态分布即可。

而且，‘凸’与‘凹’还有更进一步的应用。‘凸’代表众数比较集中，并且两端急速下降，展现出来后发现两侧的值与集中的值相差很大，也就意味着，存在着离群值，具体离群值在大的一边还是小的一边，结合数据分布的偏向就可以看出来。‘凹’代表众数不是很集中，两边下降平缓，数值差距不大，意味着数据没有明显离群值。

综合应用场景：

接下来我们来看个有趣的案例吧。

国家收入水平案例

(1)一个白领，工资水平高于周围的人，但是小于国家统计行业工资平均水平，为什么？

(2)x为收入，y为对应的人数

x=['1000','2000','3000','4000','5000','6000','7000','8000','9000','10000','20000','30000','40000','50000','1000000','2000000']

y=[1000,3000,7000,10000,14000,16000,14000,8000,1000,500,100,100,100,100,50,50]

要求：计算数据众数、中位数与平均值，解释上述现象，并评价国家整体收入状况。

根据数据，我们画出图形，计算出指标，看看到底是怎么回事？

图形看着比较“凸”，右侧下降陡峭，平均值大于中位数和众数，存在右侧极大离群值。

结论一：我们看到的是众数，所以收入都比他们高，当将极大值进行平均时，拉高了整体的收入水平

结论二：平均值大于中位数与众数，存在极大值，国家收入差距大；数据集中在众数与中位数周围，大多数人的收入在同一水平；整体收入水平较低，大多数人收入水平在平均值以下。

本期分享到这里，我们会在每周的周三和周五持续更新，咱们下期再见，期待您的光临。

weixin_39594103

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
c语言如何判断数据是否符合正态分布_正态分布的应用——基于描述性统计与分布的推论...

正态分布的应用——基于描述性统计与分布的推论内容导入：大家好，这里是每天分析一点点。本期给大家介绍的是数据分析基础系列，包括分布的基本类型，集中趋势与分布的关系，离散趋势与分布的关系，再结合国民收入案例探讨分布与描述性统计分析在实际生活的应用。文章内容适合数据分析小白，内容深入浅出，案例贴合实际。下期给大家介绍偏度系数，欢迎大家关注。概念介绍：分布的类型：上期主要给大家介绍了正态分布，其...
复制链接

扫一扫