随机事件和概率
随机试验
三个条件:在相同条件下可重复进行;每次试验的可能结果不止一个;试验前不能确定哪一个结果会出现
随机事件
基本事件与样本空间
随机试验最基本的结果是基本事件或样本点
一切基本事件的集合是样本空间
随机事件是随机试验的一个结果
必然事件
不可能事件
完备事件组
n个事件A1-An中仅发生且必发生其中之一
概率的公理化定义
非负性、规范性、可列可加性
条件概率P(B|A)
在已知事件A发生的条件下事件B发生的概率
概率的基本公式
乘法公式
P(AB)=P(A)P(B|A)
全概率公式
由原因推结果
把Ai看作是B发生的一种可能途径
如果事件A1-An构成一个完备事件组,即它们互不相容,那么对任意事件B发生的概率是事件Ai的发生概率乘以在Ai发生的条件下B发生的概率的累加和
贝叶斯公式
乘法公式/全概率公式
由结果推原因
求某种途径占所有途径的比例
A是一个完备事件组,在B发生的条件下,Ai发生的概率是Ai和B共同发生的概率除以B发生的概率
事件的独立性
P(AB)=P(A)P(B)
某一事件发生的概率完全不受到其他事件的影响
链式法则:一个时间发生的概率乘以若干个条件概率公式
独立重复事件
独立:与试验相联系的事件之间相互独立
重复:每个事件在各次试验中出现的概率不变
伯努利试验
只有两种对立结果的事件
伯努利公式(二项概率公式)
概率分布
用于表述随机变量取值的概率规律
概率分布函数
研究随机变量取值小于某一数值x的概率
随机变量及其分布
随机变量
定义:取值依赖于某个随机试验的结果,并随着试验结果不同而变化的变量
分类:离散型、连续型
常见的离散型随机变量
0-1分布(两点分布)
随机变量X只可能取0和1两个值
二项分布X~B(n,p)
在一次试验中成功的次数
几何分布
在独立重复试验中首次取得成功所进行的试验次数
超几何分布
抽取n件商品,其中抽取正品次数的概率
泊松分布X~P(λ)
P{X=k}=λ^(k)*e^(-λ)/k!
二项分布n很大,p很小,且np=λ时,二项分布近似服从泊松分布
常见的连续型随机变量
均匀分布X~U(a,b)
指数分布X~E(λ)
x>0时,x的概率是λ*e^(-λx)
正态分布X~N(μ,σ²)
标准正态分布μ是0,σ是1
使用场景: 连续型数据或者数据离散性小,数据基本符合正态分布特点
多维随机变量及其分布
联合分布
边缘分布
条件分布
独立性
二维随机变量的联合分布函数是两个变量边缘分布函数的乘积
随机变量的数字特征
数学期望
表示随机变量取值的集中程度,统计意义上的均值
方差、标准差
表示随机变量取值的离散程度
D(X)=E{[X-E(X)]²}=E(X²)-E(X)²
方差的算术平方根是均方差或标准差
协方差
描述多维随机变量之间的联系
Cov(X,Y)=E[(X-EX)(Y-EY)]=E(XY)-E(X)E(Y)
缺点:X,Y同时扩大k倍时,Cov(X,Y)扩大k^2倍
相关系数
是协方差的标准化
ρXY=Cov(X,Y)/根号下(DX*DY)
ρXY<=1
相关系数越大,线性关系越强
相关系数为0不代表X,Y独立,而是没有线性关系
相关系数为1代表X,Y之间有明确的线性关系
只有二维正态分布的相关系数为0和独立是等价的
矩
原点矩
E(X^(k))为X的k阶原点矩
中心矩
E((X-EX)^k)为k阶中心矩
混合原点矩
E(X^(k)Y^(l))为X与Y的k+l阶混合原点矩
混合中心矩
E[(X-EX)^(k)(Y-EY)^(l)]为X与Y的k+l阶混合中心矩
大数定律和中心极限定理
大数定律
样本数量很大的时候,样本均值和数学期望充分接近
当大量重复某一相同的试验时,最后的实验结果会稳定在某一数值附近
随机事件的频率近似于它的概率
中心极限定理
当样本数量无穷大时,样本均值的分布呈现正态分布
三个条件:独立、同分布、数学期望与方差存在
区别
大数定律关注样本均值,中心极限定理关注样本均值的分布
数理统计的基本概念
基本概念
总体
在数理统计中所研究对象的某项数量指标X取值的全体
总体中每个元素称为个体
简单随机样本
n个相互独立且与总体X同分布的随机变量X1,X2,...Xn,称为总体X或来自分布函数F的简单随机样本
随机抽样
对于总体X的n次独立重复观测,称为来自总体X的n次简单随机抽样
样本值
简单随机样本的观测值
统计量
样本均值
n个简单随机样本的平均值
样本方差
n个简单随机样本减去样本均值的平方累加和除以n-1
样本标准差
样本方差的算术平方根
样本k阶原点矩
样本k阶中心矩
抽样分布
定义:统计量的分布
χ²分布
非负连续型随机变量的分布
χ²=X1²+X2²+...+Xn²
密度函数图形位于第一象限,峰值往左偏,随着n的增大,峰值向右移动
数学期望为n,方差为2n
t分布
连续型随机变量的分布
设X~N(0,1),Y~χ²(n),且X与Y相互独立,t=X/根号下(Y/n)
密度函数图形关于y轴对称,形状与标准正态分布曲线相类似
F分布
非负连续型随机变量X的分布
设X~χ1²(n),Y~χ2²(n),且X与Y相互独立,F=(X/n1)/(Y/n2)
密度函数图形与χ²分布相似
参数估计和假设检验
参数估计
点估计(求估计量)
矩估计法
先计算总体X的前k阶原点矩,再令样本矩等于总体矩,最后求解方程,得到待估参数的矩估计值
最大似然估计法
先写出样本的似然函数L(θ),再求出使L(θ)达到最大值的待估参数,方法是L(θ)或lnL(θ)对θ求导
评选标准:无偏性、有效性、一致性
区间估计(求置信区间)
用统计量为端点的随机区间就来刻画总体位置参数所在的范围
假设检验
问题
在总体的分布函数完全未知或只知其形式但不知其参数的情况,提出某些关于总体分布或关于其参数的假设,然后抽取样本,构造合适的统计量,再根据样本对所提的假设作出是接受还是拒绝的决策
检验法
借助样本值来判断接受假设或拒绝假设的法则
原假设和备择假设
H0或H1
检验统计量
如果基于某一个统计量的观测值来确定接受H0或拒绝H0,这一统计量就是检验统计量
拒绝域和临界点
检测统计量的值落入这一区域就拒绝
拒绝域的边界点
两类错误
H0本身为真但拒绝了是第一类错误
H0本身为假但接受了是第二类错误
显著性水平
作检验时要求犯第一类错误的概率<=α
显著性检验
只控制犯第一类错误的概率,不考虑犯第二类错误的概率
基本思想
带有某种概率性质的反证法,依据小概率原理
一般步骤
提出所要检验的原假设H0与备择假设H1
选择检验的统计量,并在H0成立下求出它的分布
给定显著性水平α,在H0成立下确定临界值和否定域
由样本值计算统计量的值,并判断该值是否落入拒绝域,做出接受或拒绝的判断