写在前面
这篇是【数学知识】第一篇,也是”概率统计“的第一篇
人人都说”概率统计“,为什么不是”统计概率“?
概率论与统计学的关系又是什么?
一直以来对统计与概率学的理解不是很深,借此做一个小结。
本质理解
方式:由里及表(从目的出发)
通过随机变量的概率分布可以掌握它的随机特性,从而对它进行预测。
过程:
想对随机变量进行预测——
(为了预测)需要找到其概率分布——
(为了找到”概率分布“)需要试验并记录——
①试验
只对一定数量的样本进行随机试验(随机抽样)
(多次试验)不同的随机样本会构成不同的统计量”,所以这些统计量本身也是随机变量,他们也有概率分布——“抽样分布”
②记录
把样本的数据进行处理,将得到的平均值、标准差这类数据信息叫做”统计量“
——
把样本研究的结果用来反映总体的特征称为“统计推断”(包含两类问题)
——
① 估计
② 检验
总之,概率论与统计学正是因为”概率分布“这一核心思维才紧紧联系在了一起,不可分割,所以统称为”概率统计“。
再换言之,概率论是统计学的基础,统计学是概率论的发展,二者密不可分。
详细概念
常见的概率分布:
离散型概率分布
-
伯努利分布
伯努利试验,在相同条件下,重复的相互独立的随机试验。两种结果,1、成功(p) 2、不成功(1-p)。
伯努利试验指的是单次事件,而这次事件的结果是两个可能性结果中的一个。这样的事件都可以表达成“是或否”(“yes or no”)问题,
例如:抛硬币1次
-
二项分布
二项分布就是做了N次伯努利试验的分布。
当独立实验次数n=1时,二项分布就是伯努利分布。
-
做某件事情次数是固定的,次数用n表示,n次某件事相互独立
-
每一次都有两个可能的结果(成功,失败)
-
每一次成功的概率都相等,成功的概率用p表示
-
想知道k次成功的概率
例如:投了5次硬币,正面朝上3次的概率;投了六家股票,赚了4只股票的概率
-
几何分布
二项分布的孪生兄弟。
-
做某件事情的次数是固定的,次数用n表示。 N次某件事是相互独立的
-
每一次事件都有两个可能的结果(成功,或者失败)
-
每一次成功的概率都相等,成功的概率用p表示
-
想知道第k次做某件事情才取到第1次成功的概率是多少
例如,表白5次,每次的成功相同,第一次成功的概率是多少
-
泊松分布
单位时间范围内,发生某件事情K次的概率有多少。比如:1天内中奖的次数,1个月某机器损坏的次数。根据概率大小的来做出决策。
-
事件是互相独立的
-
在任意相同的时间范围内,时间发生的概率相同
-
你想知道某个时间范围内,发生某次事情K次的概率有多大。
泊松近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概率值 p相对很小,而抽取次数 n值又相对很大。因此泊松分布又被称之为罕有事件分布。
例如:某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数…
泊松分布与二项分布的关系:
当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
小结
连续性概率分布
均匀分布
均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)
指数分布
在概率理论和统计学中,指数分布(也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。 这是伽马分布的一个特殊情况。 它是几何分布的连续模拟,它具有无记忆的关键性质。 除了用于分析泊松过程外,还可以在其他各种环境中找到。
正态分布
正态分布(Normal distribution),也称**“常态分布”,又名高斯分布**(Gaussian distribution)。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
当μ = 0,σ = 1时的正态分布是标准正态分布。
标准正态分布是正态分布的一种,其平均数和标准差都是固定的,平均数为0,标准差为1。
其它分布
- 多项式分布是二项分布的推广
总结框架
概率学
|
概率分布
|
统计学
最后
参考文章:
推荐入门小白阅读:《深入浅出统计学》