[机器学习][数学基础]概率论与数理统计概括

1概率论的基本概念

1.1排列数

从m个不同元素中取出n(n ≤ m)个元素(被取出的元素各不相同),并按 照一定的顺序排成一列(一般顺序是抽取出来的顺序),叫做从m个不同 元素中取出n个元素的一个排列。记作:A(m,n)
A ( m , n ) = A m n = m ! ( m − n ) ! A(m,n)=A_m^n=\frac{m!}{(m-n)!} A(m,n)=Amn=(mn)!m!

1.1.1例子

在一个盒子中有十个完全相同的球,其中每个球上编有一个编号,球的编号从0到9,求随机抽取3个球,可能出现的数字序列共有多少种? (备注:考虑数字的顺序,认为1、2、3和3、2、1是不一样的)。
解:
A 10 3 = 10 ! ( 10 − 3 ) ! = 720 A_{10}^3=\frac{10!}{(10-3)!}=720 A103=(103)!10!=720
总共10个球,抽取3个球的排列数:
第一步:从10个球中,获取一个球,有10种选择方式
第二步:从剩下的9个球中,获取一个球,有9种选择方式
第三步:从剩下的8个球中,获取一个球,有8种选择方式
合并这3步,就共有10 * 9 * 8种选择方式

1.2组合数

从m个不同元素中取出n(n ≤ m)个元素的所有组合的个数,叫做从m个 不同元素中取出n个元素的组合数。记作:C(m,n)
C ( m , n ) = C m n = m ! ( m − n ) ! n ! C(m,n)=C_m^n=\frac{m!}{(m-n)!n!} C(m,n)=Cmn=(mn)!n!m!

1.2.1例子

在一个盒子中有十个完全相同的球,其中每个球上编有一个编号,球 的编号从0到9,求随机抽取3个球,可能出现的数字组合共有多少? (备注:不考虑数字的顺序,认为1、2、3和3、2、1是一样的)。
解:
C 10 3 = 10 ! ( 10 − 3 ) ! 3 ! = 120 C_{10}^3=\frac{10!}{(10-3)!3!}=120 C103=(103)!3!10!=120
总共10个球,抽取3个球的组合数:

  1. 抽取3个球的排列数为A(10, 3)
  2. 对于任意排列( a 1 , a 2 , a 3 a_1,a_2,a_3 a1,a2,a3)都有321种相同元素的排列存在
  3. 其实组合就是在排列的基础上去掉相同元素后剩下的数量

1.3古典概率

概率是以假设为基础的,即假定随机现象所发生的事件是有限的、互 不相容的,而且每个基本事件发生的可能性相等。一般来讲,如果在 全部可能出现的基本事件范围内构成事件A的基本事件有a个,不构成 事件A的有b个,那么事件A出现的概率为: P ( A ) = a a + b P(A)=\frac{a}{a+b} P(A)=a+ba
概率体现的是随机事件A发生可能的大小度量(数值)

1.3.1例子

在一个盒子中有十个完全相同的球,其中五个黑球,五个白球,求事 件A={从盒子中获取一个球,颜色是黑色}的概率。
解:
P ( A ) = 5 10 = 1 2 P(A)=\frac{5}{10}=\frac{1}{2} P(A)=105=21
基本的事件总数:10 抽取一个球是黑球的事件数:5

1.3.2例子2

假设有n个人,每个人都等可能地被分配到N个房间中的任意一间去住 (n≤N),求事件A={恰好有n个房间,其中各住一个人}的概率
解:
P ( A ) = N ! N n ( N − n ) ! P(A)=\frac{N!}{N^n(N-n)!} P(A)=Nn(Nn)!N!

  1. 每个人有N个房间可供选择,所以n个人住的方式共有 N n N^n Nn种。
  2. 恰好n个房间表示这n个房间其实是从N个房间中任意抽取出来的, 也就是从N个房间中抽取n个方法的组合总共有C(N,n)种。
  3. 对于n个房间来讲,n个人平均分配,那么总共有A(n,n)种入住方式。
    P ( A ) = C N n A n n N n = N ! ( N − n ) ! n ! n ! N n = N ! N n ( N − n ) ! P(A)=\frac{C_N^nA_n^n}{N^n}=\frac{\frac{N!}{(N-n)!n!}n!}{N^n}=\frac{N!}{N^n(N-n)!} P(A)=NnCNnAnn=Nn(Nn)!n!N!n!=Nn(Nn)!N!

1.4联合概率

表示两个事件共同发生的概率,事件A和事件B的共同概率记作: P(AB)、P(A,B)或者P(A∩B),读作“事件A和事件B同时发生的概率”

1.5条件概率

事件A在另外一个事件B已经发生的条件下的发生概率叫做 条件概率,表示为P(A|B),读作“在B条件下A发生的概率”
一般情况下P(A|B)≠P(A),而且条件概率具有三个特性:

  • 非负性
  • 可列性
  • 可加性

P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)

1.5.1例子1

两台车床加工同一种零件共100个,结果如下:

合格品数次品数总计
第一台车床加工数30535
第二台车床加工数501565
总计8020100

设A={ 从100个零件中任取一个是合格品}
B={从100个零件中任取一个是第一台车床加工的 }
求: P ( A ) , P ( B ) , P ( A B ) , P ( A ∣ B ) P(A),P(B),P(AB),P(A|B) P(A),P(B),P(AB),P(AB)
解:
P ( A ) = 80 100 , P ( B ) = 35 100 , P ( A B ) = 30 100 , P ( A ∣ B ) = 30 35 ≠ P ( A ) = 80 100 P(A)=\frac{80}{100},P(B)=\frac{35}{100},P(AB)=\frac{30}{100},P(A|B)=\frac{30}{35}\neq P(A)=\frac{80}{100} P(A)=10080,P(B)=10035,P(AB)=10030,P(AB)=3530=P(A)=10080
将条件概率公式由两个事件推广到任意有穷多个事件时,可以得到 如下公式,假设A1,A2,…,An为n个任意事件(n≥2),而且 P(A1A2…An)>0,则:
P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) . . . P ( A n ∣ A 1 A 2 . . . . A n − 1 ) P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)...P(A_n|A_1A_2....A_{n-1}) P(A1A2...An)=P(A1)P(A2A1)...P(AnA1A2....An1)

1.5.2例子2

袋中有一个白球与一个黑球,现每次从中取 出一球,若取出白球,则除把白球放回外再加进 一个白球,直至取出黑球为止.求取了n 次都未 取出黑球的概率.
解:
设 B={取了n次都未取出黑球}
A i = { 第 i 次 取 出 白 球 } ( i = 1 , . . . , n ) A_i=\{第i次取出白球\}(i=1,...,n) Ai={i}(i=1,...,n)
B = A 1 A 2 . . . . A n B=A_1A_2....A_n B=A1A2....An
由乘法公式,我们有
P ( B ) = P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . . . P ( A n ∣ A 1 A 2 . . . A n − 1 ) = 1 2 ∗ 2 3 ∗ 3 4 ∗ . . . . ∗ n n + 1 = 1 n + 1 P(B)=P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2).....P(A_n|A_1A_2...A_{n-1})=\\ \frac{1}{2}*\frac{2}{3}*\frac{3}{4}*....*\frac{n}{n+1}=\frac{1}{n+1} P(B)=P(A1A2...An)=P(A1)P(A2A1)P(A3A1A2).....P(AnA1A2...An1)=213243....n+1n=n+11

1.6全概率公式

样本空间Ω有一组事件A1、A2…An, 如果事件组满足下列两个条件,那么事件组称为样本空间的一个划分
设事件{ A j A_j Aj}是样本空间Ω的一个划分,且P(Ai)>0,
那么对于任意事件B,全概率公式为:
P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^nP(A_i)P(B|A_i) P(B)=i=1nP(Ai)P(BAi)

1.6.1例子1

某小组有20名射手,其中一、二、三、四级射手分别 为2、6、9、3名.又若选一、二、三、四级射手参加比赛, 则在比赛中射中目标的概率分别为0.85、0.64、0.45、0.32, 今随机选一人参加比赛,试求该小组在比赛中射中目标的概率.
设B={改小组在比赛中射中目标}
A i = { 选 i 级 射 手 参 加 比 赛 } ( i = 1 , 2 , 3 , 4 ) A_i=\{选i级射手参加比赛\}(i=1,2,3,4) Ai={i}(i=1,2,3,4)
P ( B ) = ∑ i = 1 4 P ( A i ) P ( B ∣ A i ) = 0.5275 P(B)=\sum_{i=1}^4P(A_i)P(B|A_i)=0.5275 P(B)=i=14P(Ai)P(BAi)=0.5275

1.7贝叶斯公式

P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

1.7.1贝叶斯公式案例

一座房子在过去20年里一共发生过2次被盗案,房子的主人养了一条 狗,狗平均每周晚上叫3次,在盗贼入侵时狗叫的概率估计为0.9,请 求:在狗叫的时候发生入侵的概率是多少?
解:
A = { 狗 叫 }   B = { 盗 贼 入 侵 } A =\{狗叫\} \space B=\{盗贼入侵\} A={} B={}
P ( A ) = 3 7   P ( B ) = 2 20 ∗ 365 = 2 7300   P ( A ∣ B ) = 0.9   P ( B ∣ A ) = P ( B ∣ A ) P ( A ) P ( B ) = 0.9 ∗ 2 7300 3 7 ≈ 0.00058 P(A)=\frac{3}{7}\\ \space\\ P(B)=\frac{2}{20*365}=\frac{2}{7300}\\ \space\\ P(A|B)=0.9 \\ \space\\ P(B|A)=\frac{P(B|A)P(A)}{P(B)}=\frac{0.9*\frac{2}{7300}}{\frac{3}{7}}\approx0.00058 P(A)=73 P(B)=203652=73002 P(AB)=0.9 P(BA)=P(B)P(BA)P(A)=730.9730020.00058
P(A):在没有数据支持下,A发生的概率:先验概率或边缘概率。
P(A|B):在已知B发生后A的条件概率,也就是由于得自B的取值而被
称为A的后验概率。
P(B|A):在已知A发生的情况下的概率分布:似然函数。

2离散型随机变量及其分布律

2.1离散型随机变量的分布律与性质

2.1.1离散型随机变量的定义

如果随机变量 X 的取值是有限个或可列无穷个, 则称 X 为离散型随机变量.

2.1.2离散型随机变量的分布律

设离散型随机变量 X 的所有可能取值为:
x 1 , x 2 , x 3 , . . . x n , . . . x_1,x_2,x_3,...x_n,... x1,x2,x3,...xn,...
并设 P { X = x n } = p n ( n = 1 , 2 , . . . ) P\{X=x_n\}=p_n(n=1,2,...) P{X=xn}=pn(n=1,2,...)
则称上式是离散型随机变量X的分布律

2.1.3离散型随机变量分布律的性质:

  • 对任意的自然数n,有 p n ≥ 0 p_n \ge 0 pn0;
  • ∑ n p n = 1 \sum_np_n=1 npn=1

2.1.4例子

将1枚硬币掷3次,令 X:出现的正面次数与反面次数之差.
试求:(1)X的分布律(2) P { 0.5 ≤ X ≤ 3 } P\{0.5\le X\le3\} P{0.5X3}
解:

X X X-3-113
P k P_k Pk 1 8 \frac{1}{8} 81 3 8 \frac{3}{8} 83 3 8 \frac{3}{8} 83 1 8 \frac{1}{8} 81

P { 0.5 ≤ X ≤ 3 } = P { X = 1 } = 3 8 P\{0.5\le X \le3\}=P\{X=1\}=\frac{3}{8} P{0.5X3}=P{X=1}=83

2.2一些常用的离散型随机变量

2.2.1Bernoulli分布

P { X = k } = p k ( 1 − p ) 1 − k , k = 0 , 1 P\{X=k\}=p^k(1-p)^{1-k},k=0,1 P{X=k}=pk(1p)1k,k=0,1
则称随机变量 X 服从参数为 p 的 Bernoulli分布.
记作 X ∼ B ( 1 , p ) 其 中 参 数 为 0 ≤ p ≤ 1 X\sim B(1,p)其中参数为0\le p\le1 XB(1p)0p1
Bernoulli分布也称作 0-1 分布或二点分布

2.2.2二 项 分 布

如果随机变量 X 的分布律为
P { X = k } = C n k p k ( 1 − p ) n − k ( k = 0 , 1 , . . . , n ) P\{X=k\}=C_n^kp^k(1-p)^{n-k}(k=0,1,...,n) P{X=k}=Cnkpk(1p)nk(k=0,1,...,n)
则称随机变量X 服从参数为 ( n , p ) (n, p) (np)的二项分布
X ∼ B ( n , p ) X \sim B(n,p) XB(np)

2.2.3例子

一大批产品的次品率为0.1,现从中取出15件.试 求下列事件的概率:
B = { 取 出 的 15 件 产 品 中 恰 好 有 2 件 次 品 } B=\{取出的15件产品中恰好有2件次品\} B={152}
C = { 取 出 的 15 件 产 品 中 至 少 有 2 件 次 品 } C=\{取出的15件产品中至少有2件次品\} C={152}
解:由于从一大批产品中取15件产品,故可近似看作是 一15重Bernoulli试验.
A = { 取 出 一 件 产 品 为 次 } , 则 P ( A ) = 0.1 A=\{取出一件产品为次\},则P(A)=0.1 A={}P(A)=0.1
所以
P ( B ) = C 1 5 2 ∗ 0. 1 2 ∗ 0. 9 13 P ( C ) = 1 − P ( C ˉ ) = 1 − C 15 0 ∗ 0. 1 0 ∗ 0. 9 15 − C 15 1 ∗ 0.1 ∗ 0. 9 14 P(B)=C_15^2*0.1^2*0.9^{13}\\ P(C)=1-P(\bar C)=1-C_{15}^0*0.1^0*0.9^{15}-C_{15}^1*0.1*0.9^{14} P(B)=C1520.120.913P(C)=1P(Cˉ)=1C1500.100.915C1510.10.914

2.2.4二项分布的分布形态

先是随着 k 的增大而增大,达到其最大值后再随着k 的增大而减少.这个使得 P { X = k } P\{X=k\} P{X=k}达到其最大值的 k 0 k_0 k0 称为该二项分布的最可能次数.

  • 如果 ( n + 1 ) p (n+1)p (n+1)p不是整数,则 k 0 = [ ( n + 1 ) p ] k_0=[(n+1)p] k0=[(n+1)p]
  • 如果 ( n + 1 ) p (n+1)p (n+1)p是整数,则 k 0 = ( n + 1 ) p 或 ( n + 1 ) p − 1 k_0=(n+1)p或(n+1)p-1 k0=(n+1)p(n+1)p1
2.2.4.1例子

对同一目标进行300次独立射击,设每次射击时的 命中率均为0.44,试求300次射击最可能命中几次? 其相应的概率是多少?
解:对目标进行300次射击相当于做300重Bernoulli 试验.令:
X 表示300射击中命中目标的次数.
则由题意可知 X ∼ B ( 300 , 0.44 ) X \sim B(300,0.44) XB(300,0.44)
由于(300+1)*0.44=132.44不是整数
因此,最可能射击的命中的次数为 k 0 = [ 132.44 ] = 132 k_0=[132.44]=132 k0=[132.44]=132
其相应的概率为:
P { X = 132 } = C 300 132 ∗ 0.4 4 132 ∗ 0.5 6 168 = 0.04636 P\{X=132\}=C_{300}^{132}*0.44^{132}*0.56^{168}=0.04636 P{X=132}=C3001320.441320.56168=0.04636

2.2.5Poisson 分布

如果随机变量X 的分布律为:
P { X = k } = λ k k ! e − k ( k = 0 , 1 , 2 , . . . . ) P\{X=k\}=\frac{\lambda^k}{k!}e^{-k}(k=0,1,2,....) P{X=k}=k!λkek(k=0,1,2,....)
则称随机变量 X 服从参数为λ的Poisson 分布.

2.2.5.1Poisson 分布的应用
  • Poisson分布是概率论中重要的分布之一.
  • 自然界及工程技术中的许多随机指标都服从Poisson 分布.
  • 例如,可以证明,电话总机在某一时间间隔内收到 的呼叫次数,放射物在某一时间间隔内发射的粒子 数,容器在某一时间间隔内产生的细菌数,某一时 间间隔内来到某服务台要求服务的人数,等等,在 一定条件下,都是服从Poisson分布的.
2.2.5.2例子

设每次射击命中目标的概率为0.012,现射击600次,求 至少命中3次目标的概率(用Poisson分布近似计算).
解:设X为600次射击命中目标的次数,
X ∼ B ( 600 , 0.012 ) X \sim B(600,0.012) XB(600,0.012) λ = 600 ∗ 0.0.12 = 7.2 \lambda=600*0.0.12=7.2 λ=6000.0.12=7.2
P { X ≥ 3 } = 1 − P { X < 3 } = 1 − P { X = 0 } − P { X = 1 } − P { X = 2 } = 1 − e − 7.2 − 7.2 e − 7.2 − 7. 2 2 2 e − 7.2 = 0.9745 P\{X\ge3\}=1-P\{X<3\}=1-P\{X=0\}-P\{X=1\}-P\{X=2\}=\\ 1-e^{-7.2}-7.2e^{-7.2}-\frac{7.2^2}{2}e^{-7.2}=0.9745 P{X3}=1P{X<3}=1P{X=0}P{X=1}P{X=2}=1e7.27.2e7.227.22e7.2=0.9745

2.2.6几何分布

若随机变量 X 的分布律为
P { X = k } = q k − 1 p ( k = 1 , 2 , . . . ) 其 中 ( p ≥ 0 , q ≥ 0 , p + q = 1 ) P\{X=k\}=q^{k-1}p(k=1,2,...) 其中(p\ge0,q\ge0,p+q=1) P{X=k}=qk1p(k=1,2,...)(p0,q0,p+q=1)
则称随机变量X 服从参数为p的几何分布.

2.2.7超几何分布

如果随机变量 X 的分布律为
P { X = k } = C M k C N − M n − k C N n ( k = 0 , 1 , . . . . , m i n ( M , n ) ) P\{X=k\}=\frac{C_M^kC_{N-M}^{n-k}}{C_N^n}(k=0,1,....,min(M,n)) P{X=k}=CNnCMkCNMnk(k=0,1,....,min(M,n))
其中N,M ,n均为自然数
则称随机变量X 服从参数为 ( N , M , n ) (N, M, n) (NMn)的超几何分布.

3连续型随机变量及其概率密度

3.1连续型随机变量的概念与性质

定义 如果对于随机变量X 的分布函数F(x),存 在非负函数 f (x),使得对于任意实数 x,有
F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^{x}f(t)dt F(x)=xf(t)dt
则称 X 为连续型随机变量,其中函数 f (x) 称为 X 的概率密度函数,简称概率密度.

3.2牛顿 – 莱布尼茨公式

F ( X ) F(X) F(X)是连续函数 f ( x ) f(x) f(x)在[a,b]上的一个原函数,则 ∫ a b f ( x ) d x = F ( b ) − F ( a ) \int_{a}^{b}f(x)dx=F(b)-F(a) abf(x)dx=F(b)F(a)

3.2.1例子

∫ − 2 − 1 1 x d x \int_{-2}^{-1}\frac{1}{x}dx 21x1dx

x < 0 x<0 x<0时,x的一个原函数是ln|x|
∫ − 2 − 1 1 x d x = [ ln ⁡ ∣ x ∣ ] − 2 − 1 = ln ⁡ 1 − ln ⁡ 2 = − ln ⁡ 2 \int_{-2}^{-1}\frac{1}{x}dx=[\ln|x|]_{-2}^{-1}=\ln1-\ln2=-\ln2 21x1dx=[lnx]21=ln1ln2=ln2

连续型随机变量密度函数的性质与离散型随机变量分布律的性质非常相
似,但是,密度函数不是概率!

3.3指数分布

如果随机变量 X 的密度函数为
f ( x ) = { λ e − λ x   x > 0 0   x ≤ 0 f(x)= \begin{cases} \lambda e^{-\lambda x} \space x>0\\ 0 \space x\le0 \end{cases} f(x)={λeλx x>00 x0
其中 λ > 0 \lambda > 0 λ>0为常数,则称随机变量服从参数为 λ \lambda λ 的指数分布.

3.4正态分布

如果连续型随机变量X的密度函数为
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 其 中 − ∞ < μ < + ∞ , μ > 0 为 参 数 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}其中-\infty<\mu<+\infty,\mu>0为参数 f(x)=2π σ1e2σ2(xμ)2<μ<+,μ>0
则 称 随 机 变 量X 服 从 参 数 为 ( μ , σ 2 ) (\mu,\sigma^2) (μ,σ2)
正态分布.记作 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) XN(μ,σ2)

3.5标准正态分布

如果随机变量 X ∼ N ( 0 , 1 ) X \sim N(0,1) XN(0,1),则其密度函数为
φ ( x ) = 1 2 π e − x 2 2 ( − ∞ , + ∞ ) \varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}(-\infty,+\infty) φ(x)=2π 1e2x2(,+)
其分布函数为
Φ ( x ) = ∫ − ∞ x φ ( t ) d t = 1 2 π ∫ − ∞ x e − t 2 2 d t ( − ∞ < x < + ∞ ) \Phi(x)=\int_{-\infty}^x\varphi(t)dt=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-\frac{t^2}{2}}dt(-\infty<x<+\infty) Φ(x)=xφ(t)dt=2π 1xe2t2dt(<x<+)

4期望

期望(mean):也就是均值,是概率加权下的“平均值”,是每次可能 结果的概率乘以其结果的总和,反映的实随机变量平均取值大小。 常用符号 μ \mu μ 表示
连续性: E ( x ) = ∫ − ∞ + ∞ x f ( x ) d x E(x)=\int_{-\infty}^{+\infty}xf(x)dx E(x)=+xf(x)dx
离散型: E ( x ) = ∑ i x i p i E(x)=\sum_ix_ip_i E(x)=ixipi

X246810
P(X)0.20.20.20.20.2

E ( x ) = ∑ i x i p i = 2 ∗ 0.2 + 4 ∗ 0.2 + 6 ∗ 0.2 + 8 ∗ 0.2 + 10 ∗ 0.2 = 6 E(x)=\sum_ix_ip_i=2*0.2+4*0.2+6*0.2+8*0.2+10*0.2=6 E(x)=ixipi=20.2+40.2+60.2+80.2+100.2=6
假设C为一个常数,X和Y实两个随机变量,那么期望有一下性质:
E ( C ) = C    E ( C X ) = C E ( X ) E ( X + Y ) = E ( X ) + E ( Y ) E(C)=C \space \space E(CX)=CE(X)\\ E(X+Y)=E(X)+E(Y) E(C)=C  E(CX)=CE(X)E(X+Y)=E(X)+E(Y)
如果X和Y相互独立,那么 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)

5方差

方差(variance)是衡量随机变量或一组数据时离散程度的度量,是用来度量随机变量和其数学期望之间的偏离程度。即方差是衡量数据源数据和期望均值相差的度量值。
V a r ( X ) = D ( X ) = σ 2 = ∑ ( X − μ ) 2 N D ( X ) = ∑ i = 1 n p i ∗ ( x i − μ ) 2 D ( X ) = ∫ a b ( x − μ ) 2 f ( x ) d x D ( X ) = E ( ( X − E ( X ) ) 2 ) = E ( X 2 ) − ( E ( X ) ) 2 Var(X)=D(X)=\sigma^2=\frac{\sum(X-\mu)^2}{N}\\ D(X)=\sum_{i=1}^np_i*(x_i-\mu)^2\\ D(X)=\int_a^b(x-\mu)^2f(x)dx\\ D(X)=E((X-E(X))^2)=E(X^2)-(E(X))^2 Var(X)=D(X)=σ2=N(Xμ)2D(X)=i=1npi(xiμ)2D(X)=ab(xμ)2f(x)dxD(X)=E((XE(X))2)=E(X2)(E(X))2

6常见分布

分布参数数学期望方差
两点分布0<p<1pp(1-p)
二项分布 n ≥ 1 , 0 < p < 1 n\ge1,0<p<1 n1,0<p<1npnp(1-p)
泊松分布 λ > 0 \lambda>0 λ>0 λ \lambda λ λ \lambda λ
均匀分布 a < b a<b a<b(a+b)/2 ( b − a ) 2 / 12 (b-a)^2/12 (ba)2/12
指数分布 θ > 0 \theta>0 θ>0 θ \theta θ θ 2 \theta^2 θ2
正态分布 μ , σ > 0 \mu ,\sigma>0 μ,σ>0 μ \mu μ σ 2 \sigma^2 σ2

7标准差

标准差(Standard Deviation)是离均值平方的算术平均数的平方根,常用 σ \sigma σ表示。标准差和方差都是测量离散趋势的最重要、最常见的指标。标准差和方差的不同点在于,标准差和变量的计算单位是相同的,比方差清楚,因此在很多分析的时候使用的是标准差。
σ = D ( X ) = ∑ ( X − μ ) 2 N \sigma=\sqrt{D(X)}=\sqrt{\frac{\sum(X-\mu)^2}{N}} σ=D(X) =N(Xμ)2

7.1案例

已知随机变量X的分布列如下,分别求 E ( X ) , E ( 2 X + 5 ) , D ( X ) , σ ( X ) E(X),E(2X+5),D(X),\sigma(X) E(X),E(2X+5),D(X),σ(X)的值

X-213
P0.160.440.40

E ( X ) = − 2 ∗ 0.16 + 1 ∗ 0.44 + 3 ∗ 0.40 = 1.32 E ( 2 X + 5 ) = 2 E ( X ) + 5 = 2 ∗ 1.32 + 5 D ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = 2.9376 σ ( X ) = D ( X ) ≈ 1.7139 E(X)=-2*0.16+1*0.44+3*0.40=1.32\\ E(2X+5)=2E(X)+5=2*1.32+5\\ D(X)=E(X^2)-(E(X))^2=2.9376\\ \sigma(X)=\sqrt{D(X)}\approx1.7139 E(X)=20.16+10.44+30.40=1.32E(2X+5)=2E(X)+5=21.32+5D(X)=E(X2)(E(X))2=2.9376σ(X)=D(X) 1.7139

8协方差

协方差常用于衡量两个变量的总体误差;当两个变量相同的情况下, 协方差其实就是方差。
如果X和Y是统计独立的,那么二者之间的协方差为零。但是如果协 方差为零,那么X和Y是不相关的。
C o v ( X , Y ) = E [ ( X − E ( X ) ) ∗ ( Y − E ( Y ) ) ] = E [ X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ] = = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E[(X-E(X))*(Y-E(Y))]=E[XY-XE(Y)-YE(X)+E(X)E(Y)]==\\E(XY)-E(X)E(Y) Cov(X,Y)=E[(XE(X))(YE(Y))]=E[XYXE(Y)YE(X)+E(X)E(Y)]==E(XY)E(X)E(Y)

8.1协方差性质

C o v ( X , Y ) = C o v ( Y , X ) C o v ( a X , b Y ) = a b C o v ( X , Y ) C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X,Y)=Cov(Y,X) \\ Cov(aX,bY)=abCov(X,Y)\\ Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X,Y)=Cov(Y,X)Cov(aX,bY)=abCov(X,Y)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
协方差是两个随机变量具有相同方向变化趋势的度量

  • C o v ( X , Y ) > 0 Cov(X,Y)>0 Cov(X,Y)>0则X和Y的变化趋势相同
  • C o v ( X , Y ) < 0 Cov(X,Y)<0 Cov(X,Y)<0则X和Y的变化趋势相反
  • C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0则X和Y不相关,也就是变化没有什么相关性

9Pearson相关系数

协方差可以描述X和Y的相关程度,但是协方差的值和X/Y的值采用
的是不同的量纲,导致协方差在数值上表现出比较大的差异,因此
可以引入相关系数来表示X和Y的相关性。
ρ ( X , Y ) = C o v ( X , Y ) D ( X ) D ( Y ) \rho(X,Y)=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρ(X,Y)=D(X) D(Y) Cov(X,Y)
当p(X,Y)=0的时候,称X和Y不线性相关.Pearson相关系数取值范围为[-1,1]。

10峰度

峰度(peakedness; kurtosis)又称峰态系数。表示了概率密度分布曲 线在平均值处峰值高低的特征数,直观来讲,峰度反映的是峰部的 尖度。
样本的峰度是和正态分布相比较而言的统计量,如果峰度值大于三,
那么峰的形状比较尖,比正态分布峰要陡峭。反之亦然。
峰度计算公式:随机变量的四阶中心矩与方差平方的比值。
k u r t o s i s = ∑ i = 1 N ( x i − x ˉ ) 4 ( N − 1 ) s 4 kurtosis = \frac{\sum_{i=1}^N(x_i-\bar x)^4}{(N-1)s^4} kurtosis=(N1)s4i=1N(xixˉ)4

11偏度

偏度系数(skewness)是描述分布偏离对称性程度的一个特征数,当 分布左右对称的时候,偏度系数为0,当偏度系数大于0时候,即重 尾在右侧时,该分布为右偏;当偏度系数小于0时候,即重尾在左侧 时,该分布为左偏。
偏度计算公式:随机变量的三阶中心矩与样本的平均离均差立方和
的比值。
k u r t o s i s = ∑ i = 1 N ( x i − x ˉ ) 3 ( N − 1 ) s 3 kurtosis = \frac{\sum_{i=1}^N(x_i-\bar x)^3}{(N-1)s^3} kurtosis=(N1)s3i=1N(xixˉ)3

12切比雪夫不等式/切比雪夫定理

设 随 机 变 量 X 的 期 望 为 μ , 方 差 为 σ 2 , 对 于 任 意 的 正 数 ε , 有 : P { ∣ X − μ ∣ ≤ ε } ≤ σ 2 ε 2 设随机变量X的期望为μ,方差为σ2,对于任意的正数ε,有: P\{|X-\mu|\le\varepsilon\}\le\frac{\sigma^2}{\varepsilon^2} Xμσ2ε:P{Xμε}ε2σ2
切比雪夫不等式的含义是:DX(方差)越小,时间{|X-μ|<ε}发生的概 率就大,即:X取的值基本上集中在期望μ附近

13大数定律

设随机变量X1,X2,…,Xn是一列相互独立的随机变量(或者两两不相关), 并且分别存在期望E(Xk)和方差D(Xk),对于任意小的正数ε,有:
lim ⁡ n → ∞ { ∣ 1 n ∑ k = 1 n X k − 1 n ∑ k = 1 n E ( X k ) ∣ < ε } = 1 \lim_{n\to\infty}\{|\frac{1}{n}\sum_{k=1}^nX_k-\frac{1}{n}\sum_{k=1}^nE(X_k)|<\varepsilon\}=1 nlim{n1k=1nXkn1k=1nE(Xk)<ε}=1
当具有相同期望μ和方差为σ2的时候,对随机变量的均值:
Y n = 1 n ∑ i = 1 n X i Y_n=\frac{1}{n}\sum_{i=1}^{n}X_i Yn=n1i=1nXi
则有:
lim ⁡ n → ∞ P { ∣ Y n − μ ∣ < ε } = 1 \lim_{n\to\infty}P\{|Y_n-\mu|<\varepsilon\}=1 nlimP{Ynμ<ε}=1

13.1大数定律意义

大数定律的意义:随着样本容量n的增加,样本平均数将接近于总体平均数(期望μ),所以在统计推断中,一般都会使用样本平均数估计 总体平均数的值。
也就是我们会使用一部分样本的平均值来代替整体样本的期望/均值, 出现偏差的可能是存在的,但是当n足够大的时候,偏差的可能性是 非常小的,当n无限大的时候,这种可能性的概率基本为0。
大数定律的主要作用就是为使用频率来估计概率提供了理论支持。

14中心极限定理

中心极限定理的意义:设从均值为μ、方差为 σ 2 σ^2 σ2有限的任意一个总体 中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似 服从均值为 μ / n μ/n μ/n、方差为 σ 2 / n σ^2/n σ2/n 的正态分布。
中心极限定理就是一般在同分布的情况下,抽样样本值的和在总体数
量趋于无穷时的极限分布近似与正态分布。
中心极限定理(Central Limit Theorem);假设{Xn}为独立同分布的随 机变量序列,并具有相同的期望μ和方差为 σ 2 σ^2 σ2,则{ X n X_n Xn}服从中心极限定
理,且 Z n Z_n Zn 为随机序列{ X n X_n Xn }的规范和:
Y n = X 1 + X 2 + . . . + X n = ∑ i = 1 n X i Z n = Y n − E ( Y n ) D ( Y n ) = Y n − n μ n σ → N ( n μ , n σ 2 ) Y_n=X_1+X_2+...+X_n=\sum_{i=1}^nX_i\\ Z_n=\frac{Y_n-E(Y_n)}{\sqrt{D(Y_n)}}=\frac{Y_n-n\mu}{\sqrt{n}\sigma}\to N(n\mu,n\sigma^2) Yn=X1+X2+...+Xn=i=1nXiZn=D(Yn) YnE(Yn)=n σYnnμN(nμ,nσ2)

15极大似然估计法

极大似然估计法是在总体的分布类型已知的条件 下所使用的一种参数估计方法.
极大似然原理:一个随机试验有若干个可能结 果A,B,C,…。若在一次试验中,结果A发生,则一般认为试验条件对A最有利,即A发生的 概率 P ( A / θ ) P( A / \theta ) P(A/θ) 最大
对给定的样本值 ( x 1 , x 2 , x 3 , . . . , x n ) (x_1,x_2,x_3,...,x_n) (x1,x2,x3,...,xn), ∏ i = 0 n p ( x i , θ ) \prod_{i=0}^np(x_i,\theta) i=0np(xi,θ)是参数 θ \theta θ的函数,称为似然函数,记做 L ( θ ) L(\theta) L(θ) L ( θ ) = ∏ i = 1 n p ( x i ; θ ) L(\theta)=\prod_{i=1}^np(x_i;\theta) L(θ)=i=1np(xi;θ)

15.1连续型总体似然函数的求法

设X为连续型总体,其概率密度为:
f ( x ; θ ) f(x;\theta) f(x;θ)
其中的 θ \theta θ未知,对来自总体的样本 ( X 1 , X 2 , . . . . , X n ) (X_1,X_2,....,X_n) (X1,X2,....,Xn), 其观测值
( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn),作为与总体X同分布且相互独立的n 维随机变量,样本的联合概率密度为:
f ( x 1 , x 2 , . . . , x n ) = f X 1 ( x 1 ) f X 2 . . . . f X n ( x n ) = f ( x 1 , θ ) ∗ f ( x 2 , θ ) . . . . f ( x n , θ ) = ∏ i = 1 n f ( x i , θ ) f(x_1,x_2,...,x_n)=f_{X_1}(x_1)f_{X_2}....f_{X_n}(x_n)=f(x_1,\theta)*f(x_2,\theta)....f(x_n,\theta)=\prod_{i=1}^nf(x_i,\theta) f(x1,x2,...,xn)=fX1(x1)fX2....fXn(xn)=f(x1,θ)f(x2,θ)....f(xn,θ)=i=1nf(xi,θ)
于是,样本 ( X 1 , X 2 , . . , X n ) (X1,X2,..,X_n) (X1,X2,..,Xn)落入点 ( x 1 , x 2 , . . . . , x n ) (x_1,x_2,....,x_n) (x1,x2,....,xn)领域内的概率为 ∏ i = 1 n f ( x i , θ ) Δ x i \prod_{i=1}^nf(x_i,\theta)\varDelta x_i i=1nf(xi,θ)Δxi由极大似然原理,最合理的 θ \theta θ的估计值 θ ^ \hat\theta θ^应该使 ∏ i = 1 n f ( x i , θ ) Δ x i \prod_{i=1}^nf(x_i,\theta)\varDelta x_i i=1nf(xi,θ)Δxi达到最大,由于 Δ x i \varDelta x_i Δxi是不依赖于 θ \theta θ的增量,所以我们只需要求使
似 然 函 数 L ( θ ) = ∏ i = 1 n f ( x i , θ ) 达 到 最 大 似然函数L(\theta)=\prod_{i=1}^nf(x_i,\theta)达到最大 L(θ)=i=1nf(xi,θ)

15.2例子

一个罐子里装有黑球和白球,有放回地抽取 n 个球,发现有 k 个黑球。试求罐子里黑球数与白球 数之比 R 的极大似然估计量.
解:设罐中装有a只黑球b只白球,则 R = a b R=\frac{a}{b} R=ba

X i = { 1 , 第 i 次 摸 到 黑 球 0 , 第 i 次 摸 到 白 球 X_i=\left\{ \begin{aligned} 1,第i次摸到黑球\\ 0,第i次摸到白球 \end{aligned} \right. Xi={1,i0,i
X 1 , . . . , X n 是 总 体 X ∼ b ( 1 , p ) X_1,...,X_n是总体X\sim b(1,p) X1,...,XnXb(1,p)的样本
其中 p = P X i = 1 = a a + b = R 1 + R p=P{X_i=1}=\frac{a}{a+b}=\frac{R}{1+R} p=PXi=1=a+ba=1+RR
似然函数:
L ( R ) = ∏ i = 1 n p ( x i ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = ∏ i = 1 n ( R 1 + R ) x i ( 1 − R 1 + R ) 1 − x i = ( R 1 + R ) ∑ i = 1 n x i ( 1 − R 1 + R ) n − ∑ i = 1 n x i L(R)=\prod_{i=1}^np(x_i)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=\\ \prod_{i=1}^n(\frac{R}{1+R})^{x_i}(1-\frac{R}{1+R})^{1-x_i}=\\ (\frac{R}{1+R})^{\sum_{i=1}^nx_i}(1-\frac{R}{1+R})^{n-\sum_{i=1}^nx_i} L(R)=i=1np(xi)=i=1npxi(1p)1xi=i=1n(1+RR)xi(11+RR)1xi=(1+RR)i=1nxi(11+RR)ni=1nxi
则 ln ⁡ L = ∑ i = 1 n x i ln ⁡ ( R 1 + R ) + ( n − ∑ i = 1 n x i ) ln ⁡ ( R 1 + R ) = ∑ i = 1 n x i [ ln ⁡ R − ln ⁡ ( 1 + R ) ] − ( n − ∑ i = 1 n x i ) ln ⁡ ( 1 + R ) ] 则\ln L=\sum_{i=1}^nx_i\ln(\frac{R}{1+R})+(n-\sum_{i=1}^nx_i)\ln(\frac{R}{1+R})=\\ \sum_{i=1}^nx_i[\ln R-\ln(1+R)]-(n-\sum_{i=1}^nx_i)\ln(1+R)] lnL=i=1nxiln(1+RR)+(ni=1nxi)ln(1+RR)=i=1nxi[lnRln(1+R)](ni=1nxi)ln(1+R)]

d ln ⁡ L d R = 0 , 则 ∑ i = 1 n x i ( 1 R − 1 1 + R ) − ( n − ∑ i = 1 n x i ) R 1 + R = 0 \frac{d\ln L}{dR}=0,则\sum_{i=1}^nx_i(\frac{1}{R}-\frac{1}{1+R})-(n-\sum_{i=1}^nx_i)\frac{R}{1+R}=0 dRdlnL=0,i=1nxi(R11+R1)(ni=1nxi)1+RR=0
解出
R ^ = ∑ i = 1 n x i n − ∑ i = 1 n x i = k n − k \hat R=\frac{\sum_{i=1}^nx_i}{n-\sum_{i=1}^nx_i}=\frac{k}{n-k} R^=ni=1nxii=1nxi=nkk

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值