概率论3——古典概型与二项分布

排列组合

排列组合高中应该就学过,包括两个原理(加法和乘法原理),以及排列和组合

两个原理

加法原理
比如完成某件事有3类途径,在1类中有4种方法,第2类中有2种方法,第3类中有3种方法,那么完成这件事有4+2+3种不同的方法:
在这里插入图片描述

完成某件事需要n个步骤,每个步骤之间有关联(不独立),第一个步骤有m种方法,而对应于第一个步的第k个方法,第二个步骤有 m k m_k mk种方法,那么完成这件事共有 ∑ k = 1 m m k \sum_{k=1}^mm_k k=1mmk种方法

乘法原理
比如完成某件事需要2个步骤,第一个步骤有3种方法,第二个步骤有2种方法,那么完成这件事共有3x2种方法:
在这里插入图片描述

完成某件事需要n个步骤,每个步骤之间没有关联(独立),第k个步骤有 m k m_k mk种方法,那么完成这件事共有 ∏ k = 1 n m k \prod_{k=1}^nm_k k=1nmk种方法


可以将仅有2个步骤的乘法原理过程看成1个特殊的加法原理过程,其特殊在于第一个步的第k个方法,第二个步骤有 m k m_k mk种方法,并且对于任意 m k m_k mk都相等。
在这里插入图片描述

排列与组合

从n个不同元素中取出r个,排成一排,称为一个排列,亦称为有序抽样

若取出r个元素不允许重复(不放回抽样),由乘法原理可知排列方式有 A n r A_n^r Anr种:
A n r = n ( n − 1 ) . . . ( n − r + 1 ) = n ! ( n − r ) ! A_n^r=n(n-1)...(n-r+1)=\cfrac{n!}{(n-r)!} Anr=n(n1)...(nr+1)=(nr)!n!
r < n r<n r<n时为选排列,当 r = n r=n r=n时为全排列,且 A n n = n ! A_n^n=n! Ann=n!


若取出r个元素允许重复(有放回抽样),由乘法原理可知排列方式有 n r n^r nr

从n个不同元素中取出r个,作为一组,称为一个组合,亦称为无序抽样

可以将其看成一个无序排列,取出r个的排列总数除以每个排列可交换顺序次数。
若取出r个元素不允许重复(不放回抽样),则组合数为:
C n r = A n r r ! = n ! r ! ( n − r ) ! C_n^r=\cfrac{A_n^r}{r!}=\cfrac{n!}{r!(n-r)!} Cnr=r!Anr=r!(nr)!n!
等式组合:
C n r = C n n − r C_n^r=C_n^{n-r} Cnr=Cnnr


若取出r个元素允许重复(有放回抽样),则可以采用拔靴法(Bootstrapping):
\qquad
假设集合 S = { w 1 , w 2 , w 3 } S=\{w_1,w_2,w_3\} S={w1,w2,w3},有放回无序抽样 r = 2 r=2 r=2个,共有多少种结果 ?(求全集数量)
( 注,下列结果中“,”不用来表示先后顺序,B表示计数桶,当 B = ( x 1 , x 2 , x 3 ) B=(x_1,x_2,x_3) B=(x1x2x3)时表示 w 1 w_1 w1个数为 x 1 x_1 x1 w 2 w_2 w2个数为 x 2 x_2 x2 w 3 w_3 w3个数为 x 3 x_3 x3。)
\qquad
1、 B = ( 2 , 0 , 0 ) B=(2,0,0) B=(200) → \to\qquad { w 1 , w 1 } \{w_1,w_1\}\qquad {w1,w1} 2、 B = ( 0 , 2 , 0 ) B=(0,2,0) B=(020) → \to\qquad { w 2 , w 2 } \{w_2,w_2\} {w2,w2}
3、 B = ( 0 , 0 , 2 ) B=(0,0,2) B=(002) → \to\qquad { w 3 , w 3 } \{w_3,w_3\}\qquad {w3,w3} 4、 B = ( 1 , 1 , 0 ) B=(1,1,0) B=(110) → \to\qquad { w 1 , w 2 } \{w_1,w_2\} {w1,w2}
5、 B = ( 1 , 0 , 1 ) B=(1,0,1) B=(101) → \to\qquad { w 1 , w 3 } \{w_1,w_3\}\qquad {w1,w3} 6、 B = ( 0 , 1 , 1 ) B=(0,1,1) B=(011) → \to\qquad { w 2 , w 3 } \{w_2,w_3\} {w2,w3}
\qquad
我们将上面所有结果用如下方程来表示,在 B = ( x 1 , x 2 , x 3 ) B=(x_1,x_2,x_3) B=(x1x2x3)中有 :
\qquad
x 1 + x 2 + x 3 = 2 , 其 中 x 1 , x 2 , x 3 ∈ { 0 , 1 , 2 } \qquad x_1+x_2+x_3=2,\quad其中x_1,x_2,x_3\in\{0,1,2\} x1+x2+x3=2x1x2x3{0,1,2}
\qquad
将上述情况推广一下,对于集合 S = { w 1 , w 2 . . . . , w n } S=\{w_1,w_2....,w_n\} S={w1,w2....,wn},有放回无序抽样 r r r个,结果即为:
\qquad
x 1 + x 2 . . . + x n = r , 其 中 任 意 x i ∈ { 0 , 1... , r } \qquad x_1+x_2...+x_n=r,\quad其中任意x_i\in\{0,1...,r\} x1+x2...+xn=rxi{0,1...,r}
\qquad
但是上述结果是不易求解的,我们将问题转化一下,我们重新用一个桶,编号0~n,分别用来存放抽取出来的杆 w i w_i wi
在这里插入图片描述
我们再简化一下,把桶也去了,只留下分隔栏:
在这里插入图片描述
所以栏的数+杆 w i w_i wi的数一共有 n + r − 1 n+r-1 n+r1个,我们现在有 n + r − 1 n+r-1 n+r1个孔:
在这里插入图片描述
我们现在要做的,要么先将 r r r根杆先插入 n + r − 1 n+r-1 n+r1个孔中,然后用剩下n-1根栏按顺序依次插入空白的孔中。由于只要 r r r根杆位置确定了,栏的位置也就确定了。
要么先将 n − 1 n-1 n1n-1根栏先插入 n + r − 1 n+r-1 n+r1个孔中,然后用剩下r根杆按顺序依次插入空白的孔中。由于只要 n − 1 n-1 n1根栏位置确定了,杆的位置也就确定了。
\qquad
所以有组合数为:
C n + r − 1 r = A n + r − 1 r r ! = ( n + r − 1 ) ! r ! ( ( n + r − 1 ) − r ) ! = ( n + r − 1 ) ! r ! ( n − 1 ) ! = C n + r − 1 n − 1 C_{n+r-1}^r=\cfrac{A_{n+r-1}^r}{r!}=\cfrac{(n+r-1)!}{r!((n+r-1)-r)!}=\cfrac{(n+r-1)!}{r!(n-1)!}=C_{n+r-1}^{n-1} Cn+r1r=r!An+r1r=r!((n+r1)r)!(n+r1)!=r!(n1)!(n+r1)!=Cn+r1n1

在这里插入图片描述

古典概型

古典概型又称为等可能概型,特点如下:

1、基本事件有限
2、基本事件互斥
3、基本事件等可能发生

定义条件:

1、 Ω = { w 1 , w 2 . . . . . w n } , n ≠ ∞ . n = C \Omega= \{w_1,w_2.....w_n\},n\neq \infty.n=C Ω={w1,w2.....wn},n=.n=C
2、 w i ∩ w j = ∅ , i ≠ j w_i \cap w_j=\varnothing,i\neq j wiwj=,i=j
3、 P ( w 1 ) = P ( w 2 ) = P ( w 3 ) . . . = P ( w n ) P(w_1)=P(w_2)=P(w_3)...=P(w_n) P(w1)=P(w2)=P(w3)...=P(wn)
4、 P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1

性质:

A = { w 1 , w 2 . . . . . w m } A= \{w_1,w_2.....w_m\} A={w1,w2.....wm}
P ( A ) = P ( w 2 ) + P ( w 3 ) . . . + P ( w m ) = m n P(A)=P(w_2)+P(w_3)...+P(w_m)=\frac{m}{n} P(A)=P(w2)+P(w3)...+P(wm)=nm

放回抽样与不放回抽样

这个前面排列组合时已经讲过,这里就不再提及,排列组合中分为四种:

1、不放回有序采样 2、放回有序采样
3、不放回无序采样 4、放回无序采样
\qquad
但这四种抽样结果中,并不都属于古典概型,比如第四种,假设新集合 A A A为从 S = { w 1 , w 2 } S=\{w_1,w_2\} S={w1,w2},有放回无序抽取2个,很显然该集合 A A A所有元素为:
\qquad
A = { a 1 , a 2 , a 3 } A=\{a_1,a_2,a_3\} A={a1,a2,a3} \qquad a 1 = { w 1 , w 1 } , a 1 = { w 2 , w 2 } , a 3 = { w 1 , w 2 } a_1=\{w_1,w_1\},a_1=\{w_2,w_2\},a_3=\{w_1,w_2\} a1={w1,w1},a1={w2,w2},a3={w1,w2}
\qquad
但是 a 3 a_3 a3的概率和 a 1 、 a 2 a_1、a_2 a1a2的概率并不等,因为 a 3 a_3 a3的结果可以抽到是 ( w 1 , w 2 ) (w_1,w_2) (w1,w2)也可以是 ( w 2 , w 1 ) (w_2,w_1) (w2,w1),所以 P ( a 1 ) = P ( a 2 ) = 0.25 , P ( a 3 ) = 0.5 P(a_1)=P(a_2)=0.25,P(a_3)=0.5 P(a1)=P(a2)=0.25,P(a3)=0.5

随机抽样在机器学习中的应用

所以在机器学习中,我们从数据全集中抽取一部分样本进行训练时,采样时就要注意选择抽样方法,抽样结果是否和全集的数据分布特征一致,不一致时又如何处理。

n n n个样本的训练集的随机放回采样中,一个样本每次被采集到的概率是 1 n \frac{1}{n} n1。不被采集到的概率为 1 − 1 n 1- \frac{1}{n} 1n1。在连续n次采样都没有被采集中的概率是 ( 1 − 1 n ) n (1- \frac{1}{n})^n (1n1)n
\qquad
n → ∞ n→∞ n时, ( 1 − 1 n ) n = 1 e → 0.368 (1- \frac{1}{n})^n=\frac{1}{e}→0.368 (1n1)n=e10.368。也就是说,在bagging的每轮随机采样中,训练集中大约有 36.8 36.8% 36.8的数据没有被采样集采中。对于这部分大约36.8%的没有被采样到的数据,我们常常称之为袋外数据(Out Of Bag, 简称OOB)。这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。

几何分布

上面的抽样方式中,利用第四种放回无序的抽样,在对立事件的集合中,可以得到几何分布:

1、集合必须右对立事件构成,比如一个集合中,共有N件产品,且有K件次品,很显然剩下N-K件均为良品。
2、放回抽取r次,求恰好第r次才抽中次品的概率。
\qquad
由于每次抽取都是独立的,所以每次抽到次品概率为 K N \frac{K}{N} NK,良品概率 N − K N \frac{N-K}{N} NNK,由乘法原理我们知道连续抽取r次,前面都抽到了良品,所以根据乘法原理有:

\qquad
P ( r ) = ( 1 − p ) r − 1 p = ( N − K N ) r − 1 ( K N ) P(r)=(1-p)^{r-1}p=(\frac{N-K}{N})^{r-1}(\frac{K}{N}) P(r)=(1p)r1p=(NNK)r1(NK)

二项分布

上面的抽样方式中,利用第四种放回无序的抽样,在对立事件的集合中,可以得到二项分布:

1、集合必须右对立事件构成,比如一个集合中,共有N件产品,且有K件次品,很显然剩下N-K件均为良品。
2、放回抽取r次,且事件A为:r次抽取中,恰有m件次品。
在这里插入图片描述
求P(A)为多少?
\qquad
由于每次抽取都是独立的,所以每次抽到次品概率为 K N \frac{K}{N} NK,良品概率 N − K N \frac{N-K}{N} NNK,由乘法原理我们知道连续抽取r次,抽到任意特定情况(比如下图情况)的m件次品和(r-m)件良品的概率为: ( K N ) m ( N − K N ) r − m = K m ( N − K ) r − m N r (\frac{K}{N})^m(\frac{N-K}{N})^{r-m}=\frac{K^m(N-K)^{r-m}}{N^r} (NK)m(NNK)rm=NrKm(NK)rm
在这里插入图片描述
但由于要求是无序的,所以需要将所有可能的排列算进去,得:
P ( A ) = C r m p m ( 1 − p ) r − m = C r m ( K N ) m ( N − K N ) r − m = C r m K m ( N − K ) r − m N r P(A)=C_r^mp^m (1-p)^{r-m}=C_r^m (\frac{K}{N})^m (\frac{N-K}{N})^{r-m}=C_r^m\frac{K^m(N-K)^{r-m}}{N^r} P(A)=Crmpm(1p)rm=Crm(NK)m(NNK)rm=CrmNrKm(NK)rm

或者也可以理解为:从集合r次抽取构成一个新集合,其中恰有m件次品的样本比例为多少?
\qquad
新集合基本事件总数为 N r N^r Nr个,每次从 K K K件次品中取1件,取m次共有 K m K^m Km种取法,同理良品有
( N − K ) r − m (N-K)^{r-m} (NK)rm种取法,由于m件次品在r次抽样中的方式共有 C r m C_r^m Crm种,所以事件A发生的个数为 C r m K m ( N − K ) r − m C_r^mK^m(N-K)^{r-m} CrmKm(NK)rm,除以基本事件总数即可得到概率:
\qquad
P ( A ) = C r m K m ( N − K ) r − m N r P(A)=\frac{C_r^mK^m(N-K)^{r-m}}{N^r} P(A)=NrCrmKm(NK)rm
在这里插入图片描述

超几何分布

上面的抽样方式中,利用第三种不放回无序的抽样,在对立事件的集合中,可以得到超几何分布:

1、集合必须右对立事件构成,比如一个集合中,共有N件产品,且有K件次品,很显然剩下N-K件均为良品。
2、不放回抽取r次,且事件A为:r次抽取中,恰有m件次品。
在这里插入图片描述
从集合中取出r件产品作为新集合,新集合样本数为 C N r C_N^r CNr,在K件次品中取m件,有 C K m C_K^m CKm种取法,在N-K件次品中取r-m件,有 C N − K r − m C_{N-K}^{r-m} CNKrm种取法,所以概率为:

P ( A ) = C K m C N − K r − m C N r P(A)=\frac{C_K^mC_{N-K}^{r-m}}{C_N^r} P(A)=CNrCKmCNKrm
\qquad
在这里插入图片描述

几何概型

几何概型也是等可能概型,与古典概型的区别在于基本事件个数,特点如下:

1、基本事件无限
2、基本事件互斥
3、基本事件等可能发生

特征如下:

1、样本空间 S S S是一个几何区域,这区域大小可以度量,并记 S S S的度量为 m ( S ) m(S) m(S)
2、落在区域内任意点都是等可能的,落在其内的区域 A A A内的可能性与 m ( A ) m(A) m(A)成正比。
在这里插入图片描述
事件A发生的概率为:
\qquad
P ( A ) = m ( A ) m ( S ) P(A)=\frac{m(A)}{m(S)} P(A)=m(S)m(A)

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
概率论中,先验概率是指根据以往经验和分析得到的概率,在"由因求果"问题中作为因出现。先验概率可以通过全概率公式等方法计算得到。而后验概率是指在已有结果的情况下,求引起这个结果的因素的可能性,即由果求因。后验概率可以通过贝叶斯定理计算得到。 关于保研复习资料,根据引用提供的资料,它是一份自己整理的保研概率论面试保研资料。这份资料可能包括了保研概率论的相关知识、面试常见问题和答案等内容。如果你对概率论的保研复习感兴趣,这份资料可能会对你有所帮助。但请注意,复习资料只是辅助工具,最重要的还是理解概率论的基本概念和原理,并进行大量的练习和实践。希望你能够努力学习,加油!<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [概率论保研复习.pdf](https://download.csdn.net/download/Mikesuper_blog/12722360)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [计算机保研复习](https://blog.csdn.net/dlz_yhn/article/details/126806194)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [计算机保研专业课必备之数学](https://blog.csdn.net/qq_54117842/article/details/127927858)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值