NO3 -- 数据分布

最新推荐文章于 2023-09-05 10:57:27 发布

XDSXHDYY

最新推荐文章于 2023-09-05 10:57:27 发布

阅读量1k

点赞数 1

分类专栏：数据分析数据挖掘学习文章标签：数据分布正态二项分布

本文链接：https://blog.csdn.net/XDSXHDYY/article/details/98472496

版权

数据挖掘学习同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

数据分析

6 篇文章 0 订阅

订阅专栏

数据分布指的是数据的概率分布或频率分布

概率

古典概率法：

每种结果出现的概率可以用可能出现的结果类型的倒数来表示（古典事件的结果数目已知，且每种结果对应的发生概率相同），比如摇色子、抛硬币、圆盘转奖

统计概率法：

通过统计过往事件发生的结果频数来确定，比如统计球员投篮的命中率

主观概率法：

主观概率法所确定的概率值只是分析者根据过往经验给出的可能性估计值，并不代表结果确定发生的概率，比如这个小姐姐好像喜欢我

概率分布

根据数据连续性的不同，可以分为连续性数据和离散型数据，所以根据事件结果对应的概率分布数据不同也被分为连续性概率分布和离散型概率分布
离散型概率分布又称为概率质量函数（probability mass function）：二项分布、多项分布、超几何分布、泊松分布等等
连续型概率分布又称为概率密度函数（probability density function）：指数分布、均匀分布、正态分布

正态分布又叫高斯分布（连续性）

自然环境和人类社会的很多事物都会自发形成稳定的系统，因此，在这些环境下，许多事物和现象的分布都服从正态分布。例如，人的身高、体重；各种商品的尺寸和质量；自然环境的温度、湿度和降雨量；高考成绩等

正态分布的概率密度函数就由均值和方差两个自变量构成：
在这里插入图片描述

μ表示均值；σ表示标准差
μ是分布曲线的峰位置（集中趋势），又被称为位置参数。
σ越大离散程度越大，越扁平；σ越小离散程度越小（离散趋势），越瘦高。
平均值与它的众数以及中位数同一数值。

经验法则

对于服从正态分布或近似服从正态分布的数据总体，它们的均值为μ，标准差为σ，经验法则可以表述为

大约有 68.3%的数据会落在区间μ±σ内，
大约95.4%的数据会落在区间μ±2σ内，
大约99.7%的数据会落在区间μ±3σ内

所以经验法则也被形象地称为六西格玛（6σ）法则
正态分布的概率曲线图
在这里插入图片描述

标准正态分布：

当μ=0，σ=1时
在这里插入图片描述

二项分布（离散型）

伯努利试验

在现实生活中，许多事件的结果往往只有两个。例如：抛硬币，产品质量的结果合格或不合格，这些事件都可被称为伯努利试验。

伯努利试验是单次随机试验，只有"成功（值为1）"或"失败（值为0）"这两种结果。

二项分布(Binomial distribution)

是n重伯努利试验成功次数的离散概率分布。
在这里插入图片描述
特点：

每次试验只有两种可能的结果：“成功”与“失败”，两个结果只会出现一个
每次试验前，如果“成功”的概率是p，那么“失败”的概率就是（1-p）
每次试验相互独立，每次试验结果不受其他各次试验结果的影响
随着n和p的增大，二项分布将逐渐近似于正态分布。

泊松分布（离散型）

基于过去某个随机事件在某段时间或某个空间内发生的平均次数，预测该随机事件在未来同样长的时间或同样大的空间内发生n次的概率

泊松分布经常被用于销量较低的商品库存控制

柏松分布可以通过二项分布推导出来，当实验次数趋向于无限，表每次试验“成功”的概率趋近于0，相当于无穷小的时间切片上，事件发生的概率无穷小我们就得到了二项分布的极限–柏松分布。
泊松分布的概率质量函数
在这里插入图片描述

当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np
如果n≥20且p≤0.05，用泊松分布近似二项分布的结果是良好的；
如果n≥100且p≤0.01，那么泊松分布近似二项分布的效果极好，两者的计算结果基本相同

由于二项分布概率质量函数的计算工作量比泊松分布的大，所以在n和p满足条件的情况下，可以用泊松分布的概率质量函数替代二项分布的概率质量函数来计算概率。

指数分布（连续性）

指数分布的作用是根据随机事件发生一次的平均等待时间来推断某个时间段内，随机事件发生的概率

生活案例：利用指数分布分析，为什么电子产品只保修二年。
已知某手机平均10年发生一次大的故障需要保修一次，那么根据指数分布计算出不同保修年限对应的发生大故障手机的比例，
担保2年，需要维修的手机比例就达18.1%，
担保3年，出现大故障的手机比例增加到25.9%，
所以为了企业的利润着想，应以2年为免费维修担保期

泊松分布是单位时间内独立事件发生次数的概率分布，指数分布是独立事件的时间间隔的概率分布。

均匀分布（连续性）

均匀分布也叫矩形分布，它是对称概率分布，在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，通常缩写为U（a，b）。

均匀概率分布是古典概率分布的连续形式，是指随机事件的可能结果是连续型数据变量，所有的连续型数据结果所对应的概率相等

均匀分布的概率密度函数为：

f(x) = 1/a+b, a<x<b
f(x) = 0, else

卡方分布

抽样分布的一种

卡方（χ2）统计量

卡方统计量是一个随机变量，它能够表明样本方差和总体方差之间的比值关系。卡方统计量决定的抽样分布就是卡方分布。
在这里插入图片描述
χ2是希腊字母，读作“卡方”；s2代表样本方差；· σ2代表总体方差；（n-1）代表自由度

卡方分布概率密度函数

在这里插入图片描述

χ2代表卡方统计量；e是自然底数，等于2.72；
v代表自由度，等于样本容量n-1；指包含的独立变量的个数
c代表调节常数，使得卡方分布曲线下方的总面积等于1

卡方分布能够用于从样本方差到总体方差的推断性分析。除此之外，卡方分布还能用于非参数检验，被称为卡方检验，是一种用途很广的计数资料的假设检验方法。

XDSXHDYY

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NO3 -- 数据分布

正态分布（连续性）自然环境和人类社会的很多事物都会自发形成稳定的系统，因此，在这些环境下，许多事物和现象的分布都服从正态分布。例如，人的身高、体重；各种商品的尺寸和质量；自然环境的温度、湿度和降雨量；高考成绩等正态分布的概率密度函数就由均值和方差两个自变量构成：μ表示均值；σ表示标准差μ是分布曲线的峰位置（集中趋势），又被称为位置参数。σ越大离散程度越大，越扁平；σ越小离散程度越小（...
复制链接

扫一扫

专栏目录