机器学习基础补习02---数理统计与参数估计

这篇文章复习一下数理统计与参数估计的部分,其中最重要的要属最大似然估计部分了。
期望
(1)离散型: E ( X ) = ∑ i = 1 x i p i E(X)=\sum_{i=1}x_ip_i E(X)=i=1xipi

(2)连续型: E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X)=\int_{-\infty}^{\infty}xf(x)dx E(X)=xf(x)dx
即:概率加权下的“平均值”
期望的性质
(1)无条件成立: E ( k x ) = k E ( x ) E(kx)=kE(x) Ekx=kEx
E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
(2)若X和Y相互独立:
E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
反之不成立。事实上,若 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y),只能说明X和Y不相关
面试题:从1,2,3…98,99,2015这100个数中任意选择若干个数(可能为0个数)求异或,试求异或的期望值。
解:(1)针对任何一个二进制位:取奇数个1异或后会得到1,取偶数个1异或后会得到0;与取0的个数无关
(2)给定最大数2015= ( 11111011111 ) 2 (11111011111)_2 (11111011111)2,共11位
(3)针对每一位分别计算,考虑第i位 X i X_i Xi,假定给定的100个数中第i位一共有N个1,M个0,某次采样取到的1的个数为k。则有:
在这里插入图片描述
(4)11位二进制数中,每个位取1的期望都是0.5:
在这里插入图片描述
集合Hash问题
某Hash函数将任一字符串非均匀映射到正整数k,概率为 2 − k 2^{-k} 2k,如下所示。现有字符串集合S,其元素经映射后,得到的最大整数为10.试估计S的元素个数。
P { H a s h ( < s t r i n g > = k ) } = 2 − k , k ∈ Z + P\lbrace Hash(<string>=k)\rbrace=2^{-k},k∈Z^+ P{Hash(<string>=k)}=2k,kZ+
问题分析:
(1)由于Hash映射成整数是指数级衰减的,“最大整数为10”这一条件可近似考虑成“整数10曾经出现”,继续近似成“整数10出现过一次”
(2)字符串被映射成10的概率分布为 p = 2 − 10 = 1 / 1024 p=2^{-10}=1/1024 p=210=1/1024,从而,一次映射即两点分布:
在这里插入图片描述

(3)从而n个字符串的映射,即二项分布:
P { X = k } = C n k p k ( 1 − p ) n − k , 其 中 p = 1 1024 P\lbrace X=k\rbrace=C_n^kp^k(1-p)^{n-k},其中p=\frac{1}{1024} P{X=k}=Cnkpk(1p)nkp=10241
(4)二项分布的期望为:
E ( P { X = k } ) = n p , 其 中 p = 1 1024 E(P\lbrace X=k\rbrace)=np,其中p=\frac{1}{1024} E(P{X=k})=np,p=10241
(5)而期望表示n次事件发生的次数,当前问题中发生了1次,从而:
n p = 1 = > n = 1 p = > n = 1024 np=1=>n=\frac{1}{p}=>n=1024 np=1=>n=p1=>n=1024

方差
(1)定义: V a r ( X ) = E { [ X − E ( X ) ] 2 } Var(X)=E\lbrace[X-E(X)]^2\rbrace Var(X)=E{[XE(X)]2}
(2)无条件成立: V a r ( c ) = 0 , V a r ( X + c ) = V a r ( X ) , V a r ( k X ) = k 2 V a r ( X ) Var(c)=0,Var(X+c)=Var(X),Var(kX)=k^2Var(X) Var(c)=0Var(X+c)=Var(X)Var(kX)=k2Var(X)
(3)X和Y独立: V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) Var(X+Y)=Var(X)+Var(Y) Var(X+Y)=Var(X)+Var(Y)
此外,方差的平方根,称为标准差

协方差
(1)定义: C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X,Y)=E\lbrace[X-E(X)][Y-E(Y)]\rbrace Cov(X,Y)=E{[XE(X)][YE(Y)]}
(2)性质: C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X)
C o v ( a X + b , c Y + d ) = a c C o v ( X , Y ) Cov(aX+b,cY+d)=acCov(X,Y) Cov(aX+b,cY+d)=acCov(X,Y)
C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E(XY)-E(X)E(Y) Cov(X,Y)=E(XY)E(X)E(Y)

协方差和独立、不相关
(1)X和Y独立时,E(XY)=E(X)E(Y)
(2)而,Cov(X,Y)=E(XY)-E(X)E(Y)
(3)从而,当X和Y独立时,Cov(X,Y)=0
但其实X和Y独立这个前提太强,我们定义:若Cov(X,Y)=0,称X和Y不相关。

协方差的意义
协方差是两个随机变量具有相同方向变化趋势的度量;若Cov(X,Y)>0,它们的变化趋势相同,若Cov(X,Y)<0,它们的变化趋势相反;若Cov(X,Y)=0,称X和Y不相关

协方差的上界
(1)若 V a r ( X ) = σ 1 2 , V a r ( Y ) = σ 2 2 Var(X)=\sigma^2_1,Var(Y)=\sigma^2_2 Var(X)=σ12Var(Y)=σ22
(2)若 ∣ C o v ( X , Y ) ≤ σ 1 σ 2 ∣ |Cov(X,Y)≤\sigma_1\sigma_2| Cov(X,Y)σ1σ2
(3)当且仅当X和Y之间有线性关系时,等号成立

再谈独立与不相关
(1)因为上述定理的保证,使得“不相关”事实上即“线性独立”
(2)即:若X和Y不相关,说明X与Y之间没有线性关系(但有可能存在其他函数关系),不能保证X和Y相互独立
(3)但对于二维正态随机变量,X与Y不相关等价于X与Y相互独立

相关系数
(1)定义: ρ X Y = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} ρXY=Var(X)Var(Y) Cov(X,Y)
(2)由协方差上界定理可知, ∣ ρ ∣ ≤ 1 |\rho|≤1 ρ1(当且仅当X与Y有线性关系时,等号成立)
(3)容易看到,相关系数是标准尺度下的协方差。上面关于协方差与XY相互关系的结论,完全适用于相关系数和XY的相互关系。

协方差矩阵
对于n维随机向量 ( X 1 , X 2 . . . X n ) (X_1,X_2...X_n) (X1,X2...Xn),任意两个元素 X i X_i Xi X j X_j Xj都可以得到一个协方差, 从而形成n*n的矩阵;显然,协方差矩阵是对称阵
c i j = E { [ X i − E ( X i ) ] [ X j − E ( X j ) ] } = C o v ( X i , X j ) c_{ij}=E\lbrace[X_i-E(X_i)][X_j-E(X_j)]\rbrace=Cov(X_i,X_j) cij=E{[XiE(Xi)][XjE(Xj)]}=Cov(Xi,Xj)
在这里插入图片描述

(1)对于随机变量X,X的k阶原点矩为: E ( X k ) E(X^k) E(Xk)
(2)X的k阶中心距为: E { [ X − E ( X ) ] k } E\lbrace [X-E(X)]^k\rbrace E{[XE(X)]k}

偏度
(1)偏度衡量随机变量概率分布的不对称性,是概率密度曲线相对于平均值不对称程度的度量
(2)偏度的值可以为正,可以为负或者无定义
(3)偏度为负(负偏态)意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(包括中位数在内)位于平均值的右侧
(4)偏度为证(正偏态)意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(包括中位数在内)位于平均值的左侧
(5)偏度为零表示数值相对均匀地分布在平均值的两侧,但不一定意味着一定是对称分布
偏度公式:
(1)三阶累积量与二阶累积量的1.5次方的比率
(2)偏度有时用Skew[X]来表示
在这里插入图片描述
峰度
峰度是概率密度在均值处峰值高低的特征,通常定义四阶中心矩除以方差的平方见3
在这里插入图片描述
μ 4 σ 4 \frac{\mu_4}{\sigma^4} σ4μ4也被称为超峰值度(excess kurtosis)
(1)“减3”是为了让正态分布的峰度为0
(2)超值峰度为正,称为尖峰态(leptokurtic)
(3)超值峰度为负,称为低峰态(platykurtic)

统计参数的总结
(1)均值(期望,一阶)
(2)方差(标准差, 二阶)
(3)变异系数:标准差与平均数的比值称为变异系数,记为 C ⋅ V C\cdot V CV
(4)偏度Skew(三阶)
(5)峰度Kurtosis(四阶)

切比雪夫不等式
设随机变量X的期望为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,对于任意整数 ϵ \epsilon ϵ,有:
P { ∣ X − μ ∣ ≥ ϵ } ≤ σ 2 ϵ 2 P\lbrace{|X-\mu|≥\epsilon}\rbrace≤\frac{\sigma^2}{\epsilon^2} P{Xμϵ}ϵ2σ2
切比雪夫不等式说明,X的方差越小,事件 { ∣ X − μ ∣ < ϵ } \lbrace|X-\mu|<\epsilon\rbrace {Xμϵ}发生的概率越大。即:X取的值基本上集中在期望 μ \mu μ附近。
该不等式进一步说明了方差的含义;该不等式可证明大数定理。

大数定理
设随机变量 X 1 , X 2 , . . . X n . . . X_1,X_2,...X_n... X1,X2,...Xn...互相独立,并且具有相同的期望 μ \mu μ和方差 σ 2 \sigma^2 σ2。作前n个随机变量的平均 Y n = 1 n ∑ i = 1 n X i Y_n=\frac{1}{n}\sum_{i=1}^nX_i Yn=n1i=1nXi,则对于任意整数 ϵ \epsilon ϵ,有:
lim ⁡ n → ∞ P { ∣ Y n − μ ∣ < ϵ } = 1 \lim_{n \to \infty} P\lbrace|Y_n-\mu|<\epsilon\rbrace=1 limnP{Ynμϵ}=1
意义:当n很大时,随机变量 X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn的平均值 Y n Y_n Yn在概率意义下无限接近期望 μ \mu μ,出现偏离是可能的,但这种可能性很小,当n无限大时,这种可能性的概率为0。

重要推论
一次试验中,事件A发生的概率为p;重复n次独立试验中,事件A发生了 n A n_A nA次,则p、n、 n A n_A nA的关系满足:
对于任意正数 ϵ \epsilon ϵ
lim ⁡ n → ∞ P { ∣ n A n − p ∣ < ϵ } = 1 \lim_{n \to \infty}P\lbrace|\frac{n_A}{n}-p|<\epsilon\rbrace=1 limnP{nnAp<ϵ}=1

伯努利定理
上述推论是最早的大数定理的形式,称为伯努利定理。该定理表明事件A发生的概率 n A / n n_A/n nA/n以概率收敛于事件A的概率p,以严格的数学形式表达了频率的稳定性。
上述事实为我们在实际应用中用频率来估计概率提供了一个理论依据

中心极限定理
设随机变量 X 1 , X 2 . . . X n . . . X_1,X_2...X_n... X1,X2...Xn...互相独立,服从同一分布,并且具有相同的期望 μ \mu μ和方差 σ 2 \sigma^2 σ2,则随机变量:
在这里插入图片描述
的分布收敛到标准正态分布
容易得到: ∑ i = 1 n X i \sum_{i=1}^n X_i i=1nXi收敛到正态分布N( n μ , n σ 2 n\mu,n\sigma^2 nμ,nσ2
标准的中心极限定理的问题
有一批样本(字符串),其中a-z开头的比例是固定的,但是量很大,需要从中随机抽样。样本量n,总体中a开头的字符串占比1%,需要每次抽到的a开头的字符串占比(0.99%,+1.01%),样本量n至少是多少?
问题可以重新表述一下:大量存在的两点分布Bi(1,p),其中,Bi发生的概率为0.01,即p=0.01。取其中的n个,使得发生的个数除以总数的比例落在区间(0.0099,0.0101),则n至少是多少?
(1)首先,两点分布B的期望为 μ = p \mu=p μ=p,方差为 σ 2 = p ( 1 − p ) \sigma^2=p(1-p) σ2=p(1p)
(2)其次,当n较大时,随机变量 Y = ∑ i = 1 n B i Y=\sum_{i=1}^nB_i Y=i=1nBi近似服从正态分布,事实上:
在这里插入图片描述
近似服从标准正态分布
(3)从而:
在这里插入图片描述
上式中, μ = 0.01 , σ 2 = 0.0099 , a = 0.0099 , b = 0.0101 , α = 0.05 或 0.01 ( 显 著 性 水 平 的 一 般 取 值 ) \mu=0.01,\sigma^2=0.0099,a=0.0099,b=0.0101,α=0.05或0.01(显著性水平的一般取值) μ=0.01,σ2=0.0099,a=0.0099,b=0.0101,α=0.050.01,查标准正态分布表,很容易计算得到n的最小值

中心极限定理的意义
在实际问题中,很多随机现象可以看做许多因素的独立影响的综合反应,往往近似服从正态分布
如:城市耗电量:大量用户的耗电量总和
测量误差:许多观察不到的、微小误差的总和
注意:是多个随机变量的和才可以,有些问题是乘性误差,则需要鉴别或取对数后再使用
线性回归中,将使用该定理论证最小二乘法的合理性

样本的统计量
X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn为一组样本,则样本均值:在这里插入图片描述
样本方差:
在这里插入图片描述
样本方差的分母使用n-1而非n,是为了无偏性
样本的矩
k阶样本原点矩
在这里插入图片描述
k阶样本中心矩
在这里插入图片描述
矩估计
设总体的均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,( μ 和 σ 未 知 \mu和\sigma未知 μσ),则有原点矩表达式:
在这里插入图片描述
根据该总体的一组样本,求得原点矩:
在这里插入图片描述
根据各自阶的中心矩相等,计算得到:
在这里插入图片描述
正态分布的矩估计
在正态分布的总体中采样得到n个样本: X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn,估计该总体的均值和方差
解:直接用矩估计的结论:
在这里插入图片描述

例:均匀分布的矩估计
X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn为定义在[a,b]上的均匀分布的总体采样得到的样本,求a,b
解:
已知均匀分布的均值和方差为:
在这里插入图片描述
矩估计要求满足:
在这里插入图片描述
从而:在这里插入图片描述
贝叶斯公式带来的思考 P ( A ∣ D ) = P ( D ∣ A ) P ( A ) P ( D ) P(A|D)=\frac{P(D|A)P(A)}{P(D)} P(AD)=P(D)P(DA)P(A)
给定某些样本D,在这些样本中计算某结论 A 1 , A 2 . . . A n A_1,A_2...A_n A1,A2...An出现的概率,即 P ( A i ∣ D ) P(A_i|D) P(AiD)
在这里插入图片描述
第一个等式:贝叶斯公式
第二个等式:样本给定,则对任何 A i A_i Ai,P(D)是常数
第三个箭头:若这些结论 A 1 , A 2 , . . . A n A_1,A_2,...A_n A1,A2,...An的先验概率相等(或近似),则得到最后一个等式,即第二行的公式

极大似然估计
设总体分布为 f ( x , θ ) , X 1 , X 2 , . . . X n f(x,\theta),X_1,X_2,...X_n f(x,θ),X1,X2,...Xn为该总体采样得到的样本,因为 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn独立同分布,于是,它们的联合密度函数为:
在这里插入图片描述
这里, θ \theta θ被看做固定但未知的参数;反过来,因为样本已经存在,可以看成 x 1 , x 2 . . . x n x_1,x_2...x_n x1,x2...xn是固定的, L ( x , θ ) L(x,\theta) L(x,θ)是关于 θ \theta θ的函数,即似然函数
求参数 θ \theta θ的值,使得似然函数取得极大值,这种方法就是极大似然估计
极大似然估计的具体实践操作
在实践中,由于求导数的需要,往往将似然函数取对数,得到对数似然函数;若对数似然函数可导,可通过求导的方式,解下列方程组,得到驻点,然后分析该驻点是否是极大值点
在这里插入图片描述

找出与样本的分布最接近的概率分布模型
例:10次抛硬币的结果是:正正反正正正反反正正
假设p是每次抛硬币结果为正的概率。则:
得到这样的实验结果的概率是:
P = p p ( 1 − p ) p p p ( 1 − p ) ( 1 − p ) p p = p 7 ( 1 − p ) 3 P=pp(1-p)ppp(1-p)(1-p)pp=p^7(1-p)^3 P=pp(1p)ppp(1p)(1p)pp=p7(1p)3
目标函数:在这里插入图片描述
最优解是:p=0.7,思考,如何求解
一般形式:
在这里插入图片描述
p(x)模型是估计的概率分布; p ˉ ( x ) \bar{p}(x) pˉ(x)是实验结果的分布
正态分布的极大似然估计
若给定一组样本 X 1 , X 2 , . . . X n X_1,X_2,...X_n X1,X2,...Xn,已知它们来自于高斯分布 N ( μ , σ ) N(\mu,\sigma) N(μσ),试估计 μ , σ \mu,\sigma μ,σ
按照MLE的过程分析
高斯分布的概率密度函数:
在这里插入图片描述
X i X_i Xi的样本值 X i X_i Xi带入,得到:
在这里插入图片描述
化简对数似然函数:
在这里插入图片描述
参数估计的结论:
目标函数:在这里插入图片描述
将目标函数对参数 μ , σ \mu,\sigma μ,σ分别求偏导,很容易得到 μ , σ \mu,\sigma μ,σ的式子:
在这里插入图片描述
上述结论和矩估计的结果是一致的,并且意义非常直观:样本的均值即高斯分布的均值,样本的伪方差即高斯分布的方差
注:经典意义下的方差,分母是n-1;在似然估计的方法汇总,求得方差是n
该结论将在EM(期望最大化算法)、GMM高斯混合模型中将继续使用。

好的,这篇文章先到这里。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值