统计与概率分布

最新推荐文章于 2020-12-06 07:05:06 发布

Fang Suk

最新推荐文章于 2020-12-06 07:05:06 发布

阅读量2.5k

点赞数 2

分类专栏：统计与概率文章标签：概率分布数据分布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MrR1ght/article/details/100583892

版权

统计与概率专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、为什么要研究数据分布

“这部分主要是bi站视频-统计的乐趣-的笔记”

统计学最早是政府的工具，用来统计全国的数据，便于更好的进行管理。例如统计全国各地区的粮食产量，全国人的结婚率，离婚率，死亡率等等。19世纪，欧洲兴趣了统计学，统计学家们统计了许多能记录的信息。并对之进行分析。最初，统计学家发现，平均值非常重要。例如各地区的平均身高，平均粮食产量等信息进行分析研究。后来个体的差异也越来越得到统计学家的重视。并设计了统计图来展示个体差异。

数据在统计图中的形状，称之为数据的分布。

当统计学家们热衷于研究数据的分布时，他们发现有一种分布居然会反复出现。Francis Galton将之称为“正太分布”。研究学家研究数据分布有什么用呢？

1）用统计数据观察世界，便于分析某个随机事件。并可根据当前事件的规律对未来进行预测。

2）便于分析原因。通过相关性分析可以分析事件之间的联系。以及事物之间是如何相互影响，相互作用的。

下面分别介绍几种常见的概率分布，它们都产生于特定的自然或社会进程中。

二几种常见的概率分布

离散型变量概率分布

1、伯努利分布

关于布尔变量x∈{0，1}的概率分布，为纪念瑞士科学家雅各布·伯努利而命名。亦称为“零一分布”概率分布函数

，x只有两种取值0，1。也可表示为

期望E[x]=u。方差var[x]=u(1-u)

2、二项分布

将伯努利实验扩展到多次，其结果符合二项分布(Binomial)。描述了N次独立的伯努利实验有m次成功的概率。假设每次伯努利实验成功概率为p。概率函数为：

期望E[x]=Nu，方差var[x]=Nu(1-u)

3、几何分布

n次的伯努利实验，实验k次才第一次成功。也就是前k-1次都失败。第k次成功。概率函数为：

期望E(x)=1/p。标准差

4、泊松分布

泊松分布式在已知过去发生频率的基础上，预测接下来一段特定时间内，该事件发生特定次数的概率

例如，某件事情每小时平均发生10次，我想知道接下来一个小时该事件发生15次的概率。直接把x=15，u=10带入上面公式即可。

连续性随机变量

1、正态分布

亦称之为“高斯分布”，是应用最为广泛的连续概率分布。

正态分布拥有单变量x。参数为均值，方差。概率密度函数为：

三为什么通常假设数据满足正态分布

因为正态分布简单，所以通用。自然界的多数随机变量，都大致遵循正态分布。为什么？中心极限定理：一个变量一般都受多个随机变量的影响，这些随机变量的分布总和最终非常接近正态分布。例如人的身高会受到其他多个随机变量的影响，基因，营养，气候，等等等，这些随机变量可能各自满足不同的分布。多个随机变量作用的结果就会使身高变量大致遵循正态分布。

那么在我们不知道一个随进变量满足的分布的情况下，要对其分布进行假设时，一般就会假设其满足正态分布。其实就是一个随机变量遵循正态分布的先验概率大，在不知道其分布的情况下，不妨假设其满足正态分布。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。