机器学习(二)概率密度分布之参数估计

机器学习(二)概率密度估计之参数估计

2018/2/19
by ChenjingDing


概率密度估计总体上可分为两种方法,参数估计和非参数估计的方法。

一.参数估计

假设随机变量服从不同的分布,则可以求取该分布概率密度函数的参数。频率学派认为该参数是固定的,因此产生了最大似然估计。而贝叶斯学派认为该参数也是随机变量,产生了贝叶斯学习的方法。

1.1最大似然估计

*1.1.1最大似然估计的基本原理

目标函数
找到参数 θ θ 使得样本x出现的概率最大。即: θ=argmaxθp(x|θ) θ = a r g m a x θ p ( x | θ )
利用导数求极值

L(θ)=p(x|θ)=i=1np(xi|θ)()E(θ)=lnp(x|θ)=lni=1np(xi|θ)=i=1nlnp(xi|θ) L ( θ ) = p ( x | θ ) = ∏ i = 1 n p ( x i | θ ) ( 所 有 样 本 都 独 立 同 分 布 ) E ( θ ) = − ln ⁡ p ( x | θ ) = − ln ⁡ ∏ i = 1 n p ( x i | θ ) = − ∑ i = 1 n ln ⁡ p ( x i | θ )
maxL(θ) m a x L ( θ ) 就相当于 minE(θ) m i n E ( θ ) ,所以目标函数是 θ=argminθE(θ) θ = a r g m i n θ E ( θ )
E(θ)θ=ni=1lnp(xi|θ)θ=i=1np(xi|θ)p(xi|θ)θ=0 ∂ E ( θ ) ∂ θ = − ∂ ∑ i = 1 n ln ⁡ p ( x i | θ ) ∂ θ = − ∑ i = 1 n ∂ p ( x i | θ ) p ( x i | θ ) ∂ θ = 0
根据上式即可求得 θ θ

1.1.2高斯分布的最大似然估计

假设随机变量X服从一维高斯分布,样本 x=(x1,x2...xn1,xn) x = ( x 1 , x 2 . . . x n − 1 , x n ) ,则参数 θ=(μσ) θ = ( μ , σ )
先求 μˆ μ ^ : E(θ)θ=ni=12(xiμˆ)2σ2=1σ2[ni=1xinμˆ]=0 ∂ E ( θ ) ∂ θ = − ∑ i = 1 n − 2 ( x i − μ ^ ) 2 σ 2 = 1 σ 2 [ ∑ i = 1 n x i − n μ ^ ] = 0

μˆ=1ni=1nxi μ ^ = 1 n ∑ i = 1 n x i
同理:
σˆ2=1ni=1n(xiμˆ)2 σ ^ 2 = 1 n ∑ i = 1 n ( x i − μ ^ ) 2
无偏估计
μˆ μ ^ 是无偏估计:
E(μˆ)=E(1ni=1nxi)=1ni=1nE(xi)=μ,E(xi)=E(X): E ( μ ^ ) = E ( 1 n ∑ i = 1 n x i ) = 1 n ∑ i = 1 n E ( x i ) = μ , ( E ( x i ) = E ( X ) : 样 本 和 总 体 同 分 布 )
σˆ2 σ ^ 2 是渐进无偏估计:
E(σˆ2)=E(1ni=1n(xiμˆ)2)=E(1ni=1n(x2i2xiμˆ+μˆ2))=E(1ni=1n(x2i)2μˆ2+μˆ2)=[1ni=1nE(x2i)]E(μˆ2)=[1ni=1n[D(xi)+E(xi)2]][D(μˆ)+E(μˆ)2]=1n[nσ2+nμ2][σ2n+μ2]=n1nσ2 E ( σ ^ 2 ) = E ( 1 n ∑ i = 1 n ( x i − μ ^ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i 2 − 2 x i μ ^ + μ ^ 2 ) ) = E ( 1 n ∑ i = 1 n ( x i 2 ) − 2 μ ^ 2 + μ ^ 2 ) = [ 1 n ∑ i = 1 n E ( x i 2 ) ] − E ( μ ^ 2 ) = [ 1 n ∑ i = 1 n [ D ( x i ) + E ( x i ) 2 ] ] − [ D ( μ ^ ) + E ( μ ^ ) 2 ] = 1 n [ n σ 2 + n μ 2 ] − [ σ 2 n + μ 2 ] = n − 1 n σ 2
上述推导用到以下两个公式:
1. D(X)=E(X2)E(X)2 D ( X ) = E ( X 2 ) − E ( X ) 2 ;
2. D(μˆ)=D(1nni=1xi)=1n2D(ni=1xi)=1n2ni=1D(xi)()=σn; D ( μ ^ ) = D ( 1 n ∑ i = 1 n x i ) = 1 n 2 D ( ∑ i = 1 n x i ) = 1 n 2 ∑ i = 1 n D ( x i ) ( 样 本 之 间 独 立 同 分 布 ) = σ n ;

所以,需要修改 σˆ2 σ ^ 2 ,使得

σˆ2corr=nn1σˆ2 σ ^ c o r r 2 = n n − 1 σ ^ 2

1.2贝叶斯学习

1.2.1 贝叶斯学习估计参数

暂时跳过。

*1.2.2 贝叶斯学习预测

x是已知样本。 xˆ x ^ 是需要被预测的数据,即另一个未知的样本数据, 样本之间相互独立同分布。

p(xˆ|x)=p(xˆ,θ|x)dθ=p(xˆ|x,θ)p(θ|x)dθ=p(xˆ|θ)p(θ|x)dθ (xˆxθ)=p(xˆ|θ)p(x|θ)p(θ)p(x)dθ=p(xˆ|θ)p(x|θ)p(θ)p(x|θ)p(θ)dθdθ(p(x)=p(x|θ)p(θ)dθ,) p ( x ^ | x ) = ∫ p ( x ^ , θ | x ) d θ = ∫ p ( x ^ | x , θ ) p ( θ | x ) d θ = ∫ p ( x ^ | θ ) p ( θ | x ) d θ   ( x ^ 和 x 在 已 知 θ 情 况 下 , 相 互 独 立 ) = ∫ p ( x ^ | θ ) p ( x | θ ) p ( θ ) p ( x ) d θ = ∫ p ( x ^ | θ ) p ( x | θ ) p ( θ ) ∫ p ( x | θ ) p ( θ ) d θ d θ ( p ( x ) = ∫ p ( x | θ ) p ( θ ) d θ , 边 缘 分 布 和 总 体 分 布 的 关 系 )

考完试,再来系统更新这部分,了解更多:
https://www.youtube.com/watch?v=Vd_gKry3h4s (贝叶斯学习)
https://www.youtube.com/watch?v=ZL5cv1FiFn4 ( 贝叶斯预测)
https://www.youtube.com/playlist?list=PLFDbGp5YzjqXQ4oE4w9GVWdiokWB9gEpm(系统学习贝叶斯学习)

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值