目录
概率论的基本概念
随机试验
- 随机试验:
- 在相同的条件下重复实验
- 已知所有可能的结果
- 在试验前未知结果
样本空间、随机事件
- 样本空间:获得的所有可能结果组成的集合
- 样本点:样本空间中某个结果
- 随机事件:
- 每种结果在相同的条件下实验
- 已知了所有可能的结果
- 在实验前未知结果
- 是样本空间的子集
- 可能性分类:
- 必然事件
- 不可能事件
- 可能事件
- 事件间的关系:
- 包含、相等
- 和
- 交
- 差
- 互斥
- 对立、互逆
频率与概率
- 频率:在样本中,某个随机事件发生的次数nA除以所有可能发生的事件数目n得到频率
- 性质:
- 有界性:范围在[0,1]之间
- 规范性
- 可列可加性
- 性质:
- 概率:大量随机实验后,事件发生的可能性保持在一定水平
- 性质:
- 非负性
- 规范性:概率总和为1
- 可列可加性:两两不相容事件概率可叠加
- 性质:
- P()=0
- 有限可加性:P(X1,X2,..Xn)=P(X1)+P(X2)+...+P(Xn)
- A属于B,P(B-A)=P(B)-P(A),P(B)>=P(A)
- P(A)<=P(S)=1
- 对立事件概率和为1
- P(A+B)=P(A)+P(B)-P(AB)
- 性质:
- 概率性稳定
等可能概型
- 古典概型:
- 定义:
- 存在有限种可能
- 每种可能情况发生概率相同
- 公式:
- 可能事件发生的数目/所有事件发生的数目
- 定义:
条件概率
- 条件概率
- 条件:P(B)>0
- 性质:
- 非负性
- 规范性
- 可列可加性
- 乘法公式
- 全概率公式:
- 划分:
- 两两不相容
- 它们的和为样本空间
- 表达式:
- 条件:
- Bi为样本空间S的划分,且概率均大于0
- 条件:
- 划分:
- 贝叶斯公式
- 条件:P(A)>0,P(B)>0
独立性
- 独立性:两个随机变量同时发生时概率互不影响
- 表达式:P(AB)=P(A)P(B)
- 定理:
- P(B)=P(B|A)
-
推论:
-
如果A1,A2,..An全都相互独立,则任取中间k个也相互独立
-
如果A1,A2,..An全都相互独立,则他们的对立事件也相互独立
-
随机变量及其分布
随机变量
- 随机变量:样本空间S中取一个样本点e,作用在e上的单值实值函数X=X(e)就是随机变量。
- 表示:
- 大写字母:事件
- 小写字母:实数
- 表示:
离散型随机变量及其分布律
- 分布律:P(xk)=P{X=xk},k=1,2,..
- 常见分布
- 0-1分布
- 概率:
- 二项分布
- 概率:
- 泊松分布
- 概率:
- 条件:n>=20,p<=0.05
- 0-1分布
随机变量的分布函数
- 概率分布函数:某个随机变量发生的概率符合某个函数
- 表达式:
- ,x属于实数域
- 性质:
- 非减性
- 积分到负无穷是0,积分到正无穷是1
- 右连续型
- 表达式:
连续型随机变量及其概率密度
- 概率密度函数:概率分布函数求导
- 表达式:
- 性质:
- 非负性
- 积分为1
- 如果在x处连续,F(x)求导得到f(x)
- 常见连续型分布:
- 均匀分布:
- 指数分布:
- 表达式:
- 无记忆性:先前的工作对后续寿命性能无影响
- 表达式:
- 正态分布:
- 表达式:
- 性质:
- 对称性
- 从x=取到最大值,向两边递减
- 标准正态分布 :
- 性质:
- 引理:
- 均匀分布:
随机变量的函数的分布
多维随机变量及其分布
二维随机变量
- 二维随机变量:对一样本S,取S(e),当X=X(e),Y=Y(e)时,则(X,Y)就是一个二维随机向量或二维随机变量
- 联合分布函数:F(x,y)=P{X=x,Y=y}
- 性质
- 非负性
- F(x,y)>=0
- F(x2,y2)-F(x1,y2)-F(x2,y1)+F(x1,y1)>=0
- 有界性:x,y均小于0时,F(x,y)=0;x,y均趋于无穷,则F(x,y)=1;F(-,y)=F(x,-)=0;
- 右连续性:F(x+0,y)=F(x,y+0)=F(x,y)
- 非负性
- 二维离散型随机变量:
- 联合分布律:就是求p{x=i,y=j}=p{x=i}p{y=j}
- 二维连续型随机变量:
- 联合分布概率密度:f(x,y)
- 性质
- 非负性:f(x,y)>=0
- 有界性:[0,1],即积分为1
- 可积性:F(x+dx,y+dy)-F(x,y)=f(x,y)dxdy
- 多维随机变量:对于样本空间S{e},当取X1=X1{e},X2=X2{e}...Xn=Xn{e}时,称X1,X2,..Xn为n维随机向量。
- 多维随机变量概率分布函数:P{X1=x1,X2=x2...}=P{X1=x1}P{X2=x2}...P{Xn=Xn}
边缘分布
- 离散型边缘分布:
- 连续型边缘分布函数:F(x,),F(,y)
- 连续型边缘分布概率密度函数:,fy同理
- 正态分布:边缘分布的函数不一定满足总体分布的函数,但正态分布的边缘函数还是满足正态分布
条件分布
- 离散型条件分布函数:
- 性质:
- 非负性
- 条件概率积分为1
- 性质:
- 连续型条件分布函数:F(X=x|Y=y)=
证明:由于上面是x,y的二重积分,下面是y的边缘函数的一重积分,然后上下直接求导,就得到了
相互独立随机变量
- 相互独立:就X,Y的概率相互无关,表达式上F(x,y)=FX(x)FY(y),f(x,y)=fx(x,y)fy(x,y)
两个随机变量的函数分布
- Z=X+Y:对联合概率分布函数F(x,y),把其中的x换成z-y,或把y换成z-x。如果X,Y相互独立,可以化成卷积的积分
证明:就是把联合概率分布函数式子列出来,把x=z-y作为x的积分上限,再用x=u-y进行换元
- Z=,XY:
证明:式子列出来,换元带入,分成y<0和y>0部分分别讨论,最后统一下就好。
- Z=max{X,Y},min{X,Y}:P{max{X,Y}}=P{X<=Z}P{Y<=Z},P{min{X,Y}}=1-P{X>Z}P{Y>Z}
随机变量的数字特征
数学期望
- 数学期望:样本的值的总和除以样本个数,简称期望,又叫均值
- 数学期望的性质:
- E(C)=C
- E(aX)=aE(X)
- E(X+Y)=E(X)+E(Y)
- E(XY)=E(X)E(Y),当X,Y相互独立时
- 证明:
- 定理:若Y=g(X),则有E(Y)=E(g(X))
- 证明:
方差
- 方差:判断数据的离散程度,是样本的值减去样本均值的平方和除以样本个数,可用Var(X),
- 方差的性质
- D(C)=0
-
- 证明:
- D(X+Y)=D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)]}
- D(X)=0的充分必要条件是P{|X-E(X)|=0}=1
- 证明:
- 定理:
- 证明:
- 切比雪夫不等式:
- 证明:
补充:
- 常见分布的数学期望和方差:
- 离散型
- 0-1分布:
- 伯努利分布:
- 泊松分布:
- 0-1分布:
- 连续型
- 均匀分布:
- 指数分布:
- 正态分布:
- 均匀分布:
- 离散型
协方差及相关系数
- 协方差:
- 表达式:
- 性质:
- 求法:
- 证明:
- 性质:
- 例子:正态分布相关系数的求解
- 表达式:
矩、协方差矩阵
- K阶原点矩:
- K阶中心矩:
- K阶混合原点矩:
- K阶混合中心矩:
- 协方差矩阵:将2阶中心混合矩写成一个矩阵形式
- 表达式:
- 以n维正态分布作为例子求其函数:
- 协方差矩阵的性质:
- (X1,X2,...,Xn)是正态分布<=>Xi(i=1,2,...n)是正态分布
- Y=(X1,X2,...,Xn)是一维正态分布<=>X1a1+X2a2+...Xnan是一维正态分布
- (X1,X2,...,Xn)是正态分布<=>Yi=g(Xi)(i=1,2...n)也都是正态分布
- 对于正态分布,两两不相关<=>两两相互独立
- 表达式:
大数定律及中心极限定理
大数定律
相关概念
- 依概率收敛:对一个随机变量序列{Xn,n=1,2...},有一个随机变量X,对>0,都有,则有Xn依概率收敛于X。
- 伯努利大数定律:对重复n次的伯努利试验,记事件A发生的次数为fA,则频数/总的实验次数会依概率收敛于p
证明:利用切比雪夫不等式,然后1-的var(x)那项拆开来分母会有个n,如果n无限大,则概率会趋近于1。
- 弱大数定律:对n个随机变量X1,X2,....,Xn,它们服从同一分布且相互独立,且它们的期望和方差存在,则它们的和/n会依概率收敛于。
证明:E(Xk)=,D(Xk)=,则随机变量和的期望为,由于相互独立,它们之间的协方差矩阵为0,则它们的和方差是它们方差的加和,又除了n平方,所以平均方差为/n。所以又利用切比雪夫不等式,则分母又会出现一个n,当n无限大时,则n无限大时,收敛的概率会趋近于1。
- 辛钦大数定律:对n个随机变量X1,X2,...Xn,它们服从同一分布且相互独立,且它们的期望存在,方差不一定存在,则它们的和/n依概率收敛于。
相关补充:
- 切比雪夫大数定律:如果对n个随机变量X1,X2,...Xn,它们只要两两不相关,且方差有界,则有
证明:用切比雪夫不等式,由于方差有界,所以最终算1-时会趋近于1。
- 马尔可夫大数定律:只要服从则也会满足
分析:这个条件看似简单,其实暗含了期望、方差存在,而且总的方差收敛。
证明:还是利用切比雪夫不等式,很明显最终概率还是趋近于1
总结
- 以弱的条件来看,个人觉得,辛钦<马尔可夫<切比雪夫<弱大数<伯努利
- 大数定律证明了实验次数无限多时,频率会无限接近概率
中心极限定理
相关概念:
- 中心极限定理:对n个随机变量X1,X2,....,Xn,它们服从同一分布且相互独立,且具有期望和方差存在,则有
证明: E(Xk)=,D(Xk)=,满足X~N(),则随机变量和的期望为,由于相互独立,它们之间的协方差矩阵为0,则它们的和方差是它们方差的加和,所以随机变量的和满足,所以化成标准形式就有上式
- 隶弗莫-拉普拉斯定理:设随机变量{Xn;n=1,2,...},若它服从n,p参数的二项分布,则将上式中的分子变成Xn-np,下面化成标准差代入即可。所以这条定理是上面定理的特殊情况。
- 李雅普诺夫定理:对n个随机变量X1,X2,....,Xn,如果它们相互独立,只要它们的Xi-的二阶以上中心矩的和除以它们各自方差的和是收敛的,则它们的和-它们期望的和,再除以根号方差的和的概率分布接近正态分布。
样本及抽样分布
随机样本
- 总体:所有可能的观察值组成的整体
- 个体:每一个可能观察值
- 简单随机样本:对于服从分布函数F的随机变量X,取{Xi;i=1,2...n},且它们相互独立,则称这n个独立的观察值为从F获取的样本容量为n的简单随机样本,简称样本。
- 样本容量:样本中个体的个数
- 无限容量:容量无限
- 有限容量:容量有限
抽样分布
- 统计量:针对某一问题对样本进行特殊运算,即一不含参数的函数,所以也是一随机变量。
- 常用统计量:
- 样本均值:
- 样本方差:
证明:为何除的是n-1,其实这是对样本的一种无偏估计。无偏就是没有偏差。我们认为样本来自同一总体,所以样本服从同一分布且相互独立,则由弱大数定律知在一定条件下,它们会趋向于,那么易知才是无偏的估计。我们将(Xi-)的平方拆成(Xi-+-)的平方,很容易知道估计值偏小,所以利用除以n-1将其适当放大。
具体请见:为什么样本方差的分母是n-1?为什么它又叫做无偏估计? - 图灵的猫 - 博客园 (cnblogs.com)
-
- k阶原点矩:就Xi的k方的求和除以n
- k阶中心矩:就Xi-的k方的求和除以n
- 经验分布函数:对x1,x2,……观察值,定义经验分布函数为xi<=x的个数除以观察值的总的个数
- 格里汶科定理:当样本无限大时,经验分布函数会依概率收敛于概率分布函数
- 分位数:
- 定义:对于一个随机变量X,其概率分布函数是F(X),概率密度是f(X),则有
- 常用统计分布:
- 分布:
- 定义:多个独立随机变量平方加和的一种分布
- 自由度:随机变量个数n
- 概率密度函数:
- 分布:
-
-
- 图像:
- 性质:可加性,即
- 特征:E(X)=n,D(X)=2n
-
证明请见:卡方分布、t分布、F分布的期望与方差的计算 - 简书 (jianshu.com)
-
-
- 上分位数:
- 定义:
- 性质:
- 上分位数:
-
-
- t分布:
- 定义:
- 概率密度函数
- t分布:
-
-
- 图像:接近正态分布的图像
- 上a分位数:
- 定义:
- 性质:
-
-
- F分布:
- 定义:
- 概率密度函数:
- F分布:
-
-
- 图像:
- 上a分位数:
- 定义:
- 性质:
- 特征: 卡方分布、t分布、F分布的期望与方差的计算 - 简书 (jianshu.com)
-
- 正态总体样本均值与样本方差的分布
- 定理1:
- 定理2:
- 定理3:
证明极富智慧,就是将式子拆开,根据正态分布化为矩阵,再利用矩阵的性质可得
可以发现样本均值的自由度被减掉了,所以近似于n-1自由的的卡方分布
-
- 定理4:
-
- 定理5:
参数估计
点估计
- 点估计问题:利用总体X中的样本的来估计总体中未知参数的值
- 方法:通常已知X的概率分布函数,要构造关于样本的统计量来估计未知参数的值
- 估计:包括估计量与估计值
- 矩估计法:根据样本矩依概率收敛到总体矩,构造有关样本矩的方程组,解方程组来估计未知参数的值
- 连续型:
- 离散型:
- 矩估计量、矩估计值
- 连续型:
- 最大似然估计法:计算观察值的出现概率,将出现概率最大的观察值作为未知参数的估计值
- 似然函数、最大似然函数:
- 最大似然估计量、最大似然估计值
- 对数似然方程组:由于最值和化成对数形式相同,所以直接对对数形式的方程求导解最值
- 不变性:若最大似然估计量存在单值反函数,则它的反函数也是最大似然估计量
- 似然函数、最大似然函数:
估计量的评选标准
- 无偏性:对于取得的估计值,都有
- 有效性:若有两个估计值,则方差小的那个估计的更准确、更有效
- 相和性:当n趋于无穷大时,即取的样本数量足够大时,估计值会依概率收敛于
即
区间估计
- 置信区间:给定总体X,其概率分布函数包含参数,且形式已定。若给定a>0,如果取样本值带入得到两个统计量,且能得到样本值在这两个统计量中的概率为1-a,则,置信区间就是两个统计量包起来的区间
-
- 置信上限、置信下限、置信水平
- 意义:对于该置信区间,约有1-a的概率包含样本真值,a的概率不包含真值,所以实际上置信区间就是一个带误差的估计区间。
- 评价标准:
精度:在置信水平相同的条件下,置信区间越短,则那两个上下限越接近,估计越精准。就是说区间短能得到样本值的概率却一样,就越精准。
置信度:在样本真值被包含在区间内的概率,置信度越高则越精准
- 枢轴量:包含参数和样本值但却不依赖于参数且分布是已知的函数
- 求解方法:1先找一个较优的估计量 2根据估计量找一个包含参数的枢轴量 3根据置信水平和枢轴量的分布找范围 2恒等变换转化为置信区间的形式求解
正态总体和方差的区间估计
-
单个总体情况
-
两个总体情况
(0-1)分布参数的区间估计
单侧置信区间
- 概念:单侧置信区间,单侧置信上限,单侧置信下限
- 定义:
- 例子:
假设检验
假设检验
- 两种假设:原假设(零假设)和备择假设
- 犯2种错误:
- 第一类错误:当H0为真时拒绝H0
- 第二类错误:当H0为假时接受H0
- 关系:两种错误相互矛盾,因为a小时易犯第一类错误,a大时易犯第二类错误
- 拒绝域、临界点
- 显著性水平:对于给定的a>0,规定犯第一种的概率小于a才能接受,即
- 显著性检验:只考虑第一种错误而不考虑犯第二种错误的为真时概率大小
- 双侧假设检验:找统计量分布在两侧概率总和为的区间是否分布在拒绝域,从而判断是否接受假设
- 单侧假设检验:找统计量单侧分布的概率为的区间是否分布在拒绝域,从而判度胺是否接受假设
- 左侧检验:
- 右侧检验:
- 拒绝域:概率为的对应假设检验的区间
- 假设检验方法:
- 确定原假设和备择假设
- 确定显著性水平和样本容量
- 选取统计量和拒绝域形式
- 通过 p{当H0为真时拒绝H0}<=a 确定拒绝域
- 代入数据判断实际情况是否落入拒绝域中
正态总体均值的假设检验
- 单个总体
- 已知:
- 选取统计量
- 相关拒绝域
- 双侧假设
- 左侧假设
- 右侧假设
- 未知:
- 选取统计量
- 相关拒绝域
- 双侧假设
- 左侧假设
- 右侧假设
- 已知:
- 两个总体
- 两个总体的差值作为单个总体来讨论
- 两个总体分别作为样本再合起来讨论
- 两个总体的方差已知(直接利用正态分布求解)
- 两个总体的方差未知且相等
- 选取统计量
- 相关拒绝域
- 双侧假设
- 左侧假设
- 右侧假设
正态分布总体方差的假设检验
只考虑未知的情况
- 单个总体:
- 选取统计量
- 相关拒绝域
- 双侧假设
- 左侧假设
- 右侧假设
- 两个总体:
- 选取统计量
- 相关拒绝域
- 双侧假设
- 左侧假设
- 右侧假设