李航老师《统计学习方法》第二版第一章答案详解

其他章节答案请参考我的汇总统计学习方法答案汇总,都是自己写的。

1、说明伯努利模型的极大似然估计和以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

解:
模型三要素是

模型策略算法
极大似然估计概率模型经验风险最小化数值解
贝叶斯估计概率模型结构风险最小化解析解

x 1 , x 2 , . . . , x n x_{1}, x_{2},..., x_{n} x1,x2,...,xn为n次独立实验产生的结果。

1.2、极大似然估计来估计结果为1的概率

P ( x = 1 ) = θ P(x = 1) = \theta P(x=1)=θ,因为伯努利分布是二项分布,所以 P ( x = 0 ) = 1 − θ P(x = 0)=1-\theta P(x=0)=1θ
那我可以得到似然函数是
L ( x 1 , x 2 , . . . , x n ; θ ) = θ k ( 1 − θ ) n − k (1) L(x_{1}, x_{2},..., x_{n};\theta) = \theta ^{k}(1-\theta )^{n-k}\tag{1} L(x1,x2,...,xn;θ)=θk(1θ)nk(1)
公式(1)的解释:其实这个公式的成立应该是使用概率的链式法则来做,但是题干给出了数据是独立的,因而可以直接简化问题,使用一个幂次就可以解决问题。但是对于幂函数来说,求解很是不方便,不容易计算。于是我们得到下面的对数似然函数,将幂次消掉。
由公式(1),因为当底数大于1,对数函数也是增函数,那么我们可以写出下面的对数似然函数:
L n L ( x 1 , x 2 , . . . , x n ; θ ) = L n θ k ( 1 − θ ) n − k = k L n ( θ ) ( n − k ) L n ( 1 − θ ) (2) Ln L(x_{1}, x_{2},..., x_{n};\theta) = Ln \theta ^{k}(1-\theta )^{n-k} = kLn(\theta )(n-k)Ln(1-\theta )\tag{2} LnL(x1,x2,...,xn;θ)=Lnθk(1θ)nk=kLn(θ)(nk)Ln(1θ)(2)
因为我们要极大化这个函数,下面对 θ \theta θ求导数:
L n L ( x 1 , x 2 , . . . , x n ; θ ) ′ = k θ − n − k 1 − θ (3) {Ln L(x_{1}, x_{2},..., x_{n};\theta)}' = \frac{k}{\theta } - \frac{n-k}{1-\theta } \tag{3} LnL(x1,x2,...,xn;θ)=θk1θnk(3)
因为是可导函数,那么在极大值出一定有:
L n L ( x 1 , x 2 , . . . , x n ; θ ) ′ = 0 (4) {Ln L(x_{1}, x_{2},..., x_{n};\theta)}' = 0\tag4 LnL(x1,x2,...,xn;θ)=0(4)
所以有 k θ − n − k 1 − θ = 0 (5) \frac{k}{\theta } - \frac{n-k}{1-\theta }= 0\tag5 θk1θnk=0(5)
将公式(5)整理便有
n θ = k (6) n\theta = k\tag6 nθ=k(6)
故我们有 θ = k n \theta = \frac{k}{n} θ=nk

1.2、贝叶斯估计来估计结果为1的概率

(1)我们还是假设 P ( x = 1 ) = θ P(x = 1) = \theta P(x=1)=θ, 并且此时认为 θ \theta θ是服从均匀分布的随机变量,因为 θ ∈ [ 0 , 1 ] \theta \in [0,1] θ[0,1],所以可以计算出 θ \theta θ的概率密度函数为 f ( θ ) = 1 f(\theta) = 1 f(θ)=1
根据贝叶斯定理,我们可以得到后验概率:
P ( θ ∣ D ) = P ( θ ) P ( D ∣ θ ) P ( D ) (7) P(\theta |D) = \frac{P(\theta )P(D|\theta )}{P(D)} \tag7 P(θD)=P(D)P(θ)P(Dθ)(7)
公式(7)解释:其中 P ( θ ) P(\theta) P(θ)为先验概率, P ( D ∣ θ ) P(D|\theta) P(Dθ)为似然函数,其中D表示我们试验得到的数据,对于该题的例子就有 D = { x 1 , x 2 , . . . , x n } D=\{x_{1}, x_{2},..., x_{n}\} D={x1,x2,...,xn}
在模型估计时,我们需要对整个后验概率分布 P ( θ ∣ D ) P(\theta|D) P(θD)进行估计,但是如果需要给出一个模型是,我们就是采用后验概率最大的模型
还有一点特别关键,如果先验分布是连续的,那么公式(7)变为
P ( θ ∣ D ) = f ( θ ) P ( D ∣ θ ) P ( D ) (8) P(\theta |D) = \frac{f(\theta )P(D|\theta )}{P(D)} \tag8 P(θD)=P(D)f(θ)P(Dθ)(8)
其中 f ( θ ) f(\theta) f(θ) θ \theta θ的概率密度函数,如果是离散的,我们还是使用公式(7)来做。
因为均匀分布是连续的,所以有
θ = a r g m a x θ P ( θ ∣ x 1 , x 2 , . . . , x n ) = a r g m a x θ P ( θ ) P ( x 1 , x 2 , . . . , x n ∣ θ ) P ( x 1 , x 2 , . . . , x n ) ∝ a r g m a x θ P ( θ ) P ( x 1 , x 2 , . . . , x n ∣ θ ) = a r g m a x θ P ( x 1 , x 2 , . . . , x n ∣ θ ) = a r g m a x θ θ k ( 1 − θ ) n − k (9) \theta = \underset{\theta }{argmax }\quad P(\theta |x_{1}, x_{2},..., x_{n}) \\=\underset{\theta }{argmax }\quad \frac{P(\theta )P(x_{1}, x_{2},..., x_{n}|\theta )}{P(x_{1}, x_{2},..., x_{n})} \\\propto \underset{\theta }{argmax }\quad P(\theta )P(x_{1}, x_{2},..., x_{n}|\theta ) \\ = \underset{\theta }{argmax } \quad P(x_{1}, x_{2},..., x_{n}|\theta ) \\= \underset {\theta }{argmax }\quad \theta ^{k}(1-\theta )^{n-k}\tag9 θ=θargmaxP(θx1,x2,...,xn)=θargmaxP(x1,x2,...,xn)P(θ)P(x1,x2,...,xnθ)θargmaxP(θ)P(x1,x2,...,xnθ)=θargmaxP(x1,x2,...,xnθ)=θargmaxθk(1θ)nk(9)
公式(9)的解释:第一个等号的成立是因为使用的方法是最大后验概率;第二个等号是使用了贝叶斯公式;第三个成立是因为分母的 P ( x 1 , x 2 , . . . , x n ) P(x_{1}, x_{2},..., x_{n}) P(x1,x2,...,xn)和参数 θ \theta θ是无关的,因而可以省略;第四个等号是因为均匀分布的概率密度函数恒为1,所以省略了,第五个等号就是似然函数啦,还可以转化为对数进行求解,和上面的计算是一样的。
下面这个例子是错误的,看看大家是不是可以发现错误之处。
下面我们换一个先验分布以加强对这个例子的理解
假设 θ \theta θ 符合的先验分布是均值为0.5,方差为0.1的高斯分布:
θ ∼ N ( 0.5 , 0.1 ) (10) \theta \sim N(0.5, 0.1) \tag{10} θN(0.5,0.1)(10)
θ \theta θ的概率密度函数是:
f ( θ ) = 1 10 2 π e − 50 ( θ − 0.5 ) 2 (11) f(\theta)= \frac{1}{10\sqrt{2\pi } } e^{-50(\theta -0.5)^2}\tag{11} f(θ)=102π 1e50(θ0.5)2(11)
根据公式(9)的第三行,我们可以得到
P ( θ ) P ( x 1 , x 2 , . . . , x n ∣ θ ) = f ( θ ) P ( x 1 , x 2 , . . . , x n ∣ θ ) = θ k ( 1 − θ ) n − k ∗ 1 10 2 π e − 50 ( θ − 0.5 ) 2 (12) P(\theta )P(x_{1}, x_{2},..., x_{n}|\theta ) \\=f(\theta)P(x_{1}, x_{2},..., x_{n}|\theta )\\= \theta ^{k}(1-\theta )^{n-k}*\frac{1}{10\sqrt{2\pi } } e^{-50(\theta -0.5)^2}\tag{12} P(θ)P(x1,x2,...,xnθ)=f(θ)P(x1,x2,...,xnθ)=θk(1θ)nk102π 1e50(θ0.5)2(12)
将公式(12)转化为对数形式方便计算,于是得到:
L n   θ k ( 1 − θ ) n − k ∗ 1 10 2 π e − 50 ( θ − 0.5 ) 2 = k L n   θ + ( n − k ) L n   ( 1 − θ ) − 50 ( θ − 0.5 ) 2 (13) Ln\ \theta ^{k}(1-\theta )^{n-k}*\frac{1}{10\sqrt{2\pi } } e^{-50(\theta -0.5)^2}\\= kLn\ \theta +(n-k)Ln\ (1-\theta )-50(\theta -0.5)^2 \tag{13} Ln θk(1θ)nk102π 1e50(θ0.5)2=kLn θ+(nk)Ln (1θ)50(θ0.5)2(13)
对公式(13)求导数,然后求出驻点即可,还可以再验证一下是否是唯一的,不是唯一的话,然后再取出最大的即可。

老铁们,上面这个先验分布是正态分布的例子是错的,我大意了。,因为正态分布的随机变量的取值是整个实轴,而这个题里面的 θ \theta θ的取值是【0,1】,因而正态分布不合适。
下面我们使用随机变量取值在【0,1】内的贝塔分布来举例。
贝塔分布的概率密度函数是
f ( θ ; α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) θ ( α − 1 ) ( 1 − θ ) β − 1 (14) f(\theta ;\alpha ,\beta )=\frac{\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}\theta ^{(\alpha -1)}(1-\theta )^{\beta -1}\tag{14} f(θ;α,β)=Γ(α)Γ(β)Γ(α+β)θ(α1)(1θ)β1(14)

同样的,根据公式(9)的第三行我们得到
P ( θ ) P ( x 1 , x 2 , . . . , x n ∣ θ ) = f ( θ ; α , β ) P ( x 1 , x 2 , . . . , x n ∣ θ ) = θ k ( 1 − θ ) n − k ∗ Γ ( α + β ) Γ ( α ) Γ ( β ) θ ( α − 1 ) ( 1 − θ ) β − 1 (15) P(\theta )P(x_{1}, x_{2},..., x_{n}|\theta ) \\=f(\theta;\alpha ,\beta )P(x_{1}, x_{2},..., x_{n}|\theta )\\= \theta ^{k}(1-\theta )^{n-k}*\frac{\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}\theta ^{(\alpha -1)}(1-\theta )^{\beta -1}\tag{15} P(θ)P(x1,x2,...,xnθ)=f(θ;α,β)P(x1,x2,...,xnθ)=θk(1θ)nkΓ(α)Γ(β)Γ(α+β)θ(α1)(1θ)β1(15)

我们可以确定一个 α , β \alpha,\beta α,β的具体取值,然后带入,对公式(15)求导求驻点,然后还要判断一下是不是唯一的驻点,如果不是,求出极大值对应的驻点,然后找到最大值对应的 θ \theta θ即可。

上面那个错误的例子之所以没有删除,是因为警示一下大家。

2、通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失时,经验风险最小化等价于极大似然估计。

答:当模型是条件概率分布且损失函数是对数损失时,最小化结构风险是:
m i n   R e m p ( P ( Y ∣ X ) ) = 1 N ∑ i = 1 N − L n   P ( Y i ∣ X i , θ ) (1) min \ R_{emp}(P(Y|X)) = \frac{1}{N}\sum_{i=1}^{N}-Ln\ P(Y_{i}|X_{i},\theta )\tag{1} min Remp(P(YX))=N1i=1NLn P(YiXi,θ)(1)
我们公式(1)里面的极小化转化为极大化,于是有
m a x   R e m p ( P ( Y ∣ X ) ) = 1 N ∑ i = 1 N L n   P ( Y i ∣ X i , θ ) = 1 N L n   ∏ i = 1 N P ( Y i ∣ X i , θ ) (2) max \ R_{emp}(P(Y|X)) = \frac{1}{N}\sum_{i=1}^{N}Ln\ P(Y_{i}|X_{i},\theta )\\=\frac{1}{N}Ln\ \prod_{i=1}^{N}P(Y_{i}|X_{i},\theta ) \tag{2} max Remp(P(YX))=N1i=1NLn P(YiXi,θ)=N1Ln i=1NP(YiXi,θ)(2)
因为 e e e为底数的对数函数是增函数,那么就相当于极大化下面的似然函数:
L = ∏ i = 1 N P ( Y i ∣ X i , θ ) (3) L= \prod_{i=1}^{N}P(Y_{i}|X_{i},\theta ) \tag{3} L=i=1NP(YiXi,θ)(3)

将似然函数取对数变为对数似然方程,再利用当底数 e > 1 e>1 e>1时,对数函数是增函数,就可以完成由极大似然估计推导最小化经验风险。

  • 22
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
很抱歉,我无法回答关于《统计学习方法李航第二版的问题。因为在提供的引用内容中没有提到《统计学习方法李航第二版的相关信息。请提供更多相关的引用内容,我将尽力为您提供答案。 #### 引用[.reference_title] - *1* [李航老师统计学习方法第二版第三章课后题答案](https://blog.csdn.net/qq_41626059/article/details/115550572)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [《统计学习方法(第2版)》李航 第14章 聚类方法 思维导图笔记 及 课后习题答案(步骤详细) k-均值 层次...](https://blog.csdn.net/qq_26928055/article/details/124563123)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [李航老师统计学习方法第二版第十一章课后习题答案](https://blog.csdn.net/qq_41626059/article/details/108926411)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值