《统计学习方法》习题答案

Mr.小蔡

于 2021-09-01 15:14:03 发布

阅读量4.3k

点赞数 6

文章标签：概率论机器学习算法

本文链接：https://blog.csdn.net/weixin_42228294/article/details/120037209

版权

本文概述了伯努利模型的极大似然估计和贝叶斯估计，介绍了统计学习的三要素——模型、策略和算法，并通过实例演示了如何通过经验风险最小化推导极大似然估计。讨论了感知机模型在异或问题上的应用，以及感知机算法的收敛过程。

摘要由CSDN通过智能技术生成

第一章统计学习及监督学习概论

课后习题

1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

解：
① 统计学习的三要素分别是模型、策略、算法。
在这里插入图片描述
模型：伯努利模型，即定义在取值为0与1的随机变量上的概率分布。
策略：极大似然估计和贝叶斯估计的策略都是对数损失函数，只不过贝叶斯估计使用的是结构风险最小化。
算法：极大似然估计所使用的算法是求取经验风险函数的极小值，贝叶斯估计所使用的算法是求取参数的后验分布，然后计算其期望。
② 定义 $A$ 为取值为0或1的随机变量，并设 $A = 1$ 的概率是 $\theta$ ，即：
$P(A=1)=\theta, P(A=0)=1 - \theta$
独立抽取 $n$ 个同分布的随机变量 $A_{1}, A_{2}, ... , A_{n}$ 。使用极大似然估计即求取以下经验风险的函数的极值点：
$-\sum_{i=1} ^{n} logP(A_{i}) = -klog \theta - (n-k)log(1-\theta)$
即求 $\theta '$ ，使得：
在这里插入图片描述
即得 $\theta$ 的估值为： $\theta=\frac{k}{n}$
如果使用贝叶斯估计，即将 $A = 1$ 的概率 $\theta$ 也看作是一个随机变量，假设其先验分布为均匀分布，即： $f(\theta)=1$ 。
那么根据贝叶斯定理，其后验分布为：

上式中分母与 $\theta$ 无关，所以可以忽略，即：
此为二项分布的概率分布
此时，如果最大化后验概率，即求 $f(\theta'|A_{1}, ..., A_{n})$ 最大，只需求解 $\theta^{k}(1-\theta)^{(n-k)}$ 的极值点。最终所求结果与最大似然估计法一样。
注意，我们还可以求解在均方（期望）意义下 $\theta$ 的值，事实上，参数为 $a, b$ 的Beta分布的概率密度函数如下：
在这里插入图片描述

Beta分布:

因此可以看出 $\theta$ 的后验分布服从参数为 $k + 1$ 和 $n - k + 1$ 的Beta分布，即：在这里插入图片描述
因此，上式的期望（即 $\theta$ 的估计值)为：
$E(\theta)=\frac{k+1}{n+2}$

1.2 通过经验风险最小化推导极大似然估计. 证明模型是条件概率分布, 当损失函数是对数损失函数时, 经验风险最小化等价于极大似然估计.

假设模型的条件概率分布是 $P_{\theta}(Y|X)$ ，现推导当损失函数是对数损失函数时，极大似然估计等价于经验风险最小化：
极大似然估计的似然函数为： $L(\theta)=\prod_{D}P_{\theta}(Y|X)$
两边取对数：
在这里插入图片描述
反之，经验风险最小化等价于极大似然估计，亦可通过经验风险最小化推导极大似然估计。

代码实现：

# 导入函数包
import numpy as np
from scipy.optimize import leastsq
import matplotlib.pyplot as plt

# 目标函数
def real_func(x):
    return np.sin(2 * np.pi * x)   # sin(2Πx)

# 多项式
def fit_func(p, x):
    f = np.poly1d(p)
    return f(x)

# 残差
def residuals_func(p, x, y):
    ret = fit_func(p, x) - y    # 注意此处没有平方
    return ret

regularization = 0.0001

# 正则化之后的残差
def residuals_func_regularization(p, x, y):
    ret = fit_func(p, x) - y
    ret = np.append(ret, np.sqrt(0.5 * regularization * np.square(p)))   # L2范数作为正则化项
    return ret
# 定义数据集
# 十个点.
x = np.linspace(0, 1, 10)
x_points = np.linspace(0, 1, 1000)
# 加上正态分布噪音的目标函数的值
y_ = real_func(x)
y = [np.random.normal(0, 0.1) + y1 for y1 in y_]

index = 0
plt.figure(figsize=(15, 8))

def fitting(M = 0):
    '''
    M    为多项式的次数
    '''
    # 随机初始化多项式参数
    p_init = np.random.rand(M + 1)
    # 最小二乘法
    # p_lsq= leastsq(residuals_func, p_init, args=(x, y))
    p_lsq = leastsq(residuals_func_regularization, p_init, args=(x, y)) #加入正则化
    print("Fitting Parameters:", p_lsq[0])
    
    # 可视化
    plt.subplot(141 + index)
    plt.plot(x_points, real_func(x_points), label='real')
    plt.plot(x_points, fit_func(p_lsq[0], x_points), label = 'fitted curve')
    plt.plot(x, y, 'bo', label='noise')
    plt.legend()
    return p_lsq

for i in [0, 1, 3, 9]:
    lsq_0 = fitting(i)
    index += 1
    
plt.subplots_adjust(top=0.92, bottom=0.08, left=0.10, right=0.95, hspace=0.25, wspace=0.35)  # 调整子图间距
plt.savefig("demo1.jpg")
plt.show()

结果：
在这里插入图片描述

参考博客：
【1】https://blog.csdn.net/familyshizhouna/article/details/70160782
【2】https://zhuanlan.zhihu.com/p/336944766

第二章感知机

在这里插入图片描述
2.1解：
因为所谓的感知机是根据输入实例的特征向量 $x$ 对其进行二分类的线性分类模型：
$\omega · x + b)$
感知机模型对应于输入空间（特征空间）中的分离超平面 $\omega·x + b = 0$ 。

而所谓的异或（XOR）即相同为0，相异为1，其图形显示如下：

$x_{1}$	$x_{2}$	$y$
0	0	0
1	1	0
0	1	1
1	0	1

在这里插入图片描述
显然异或模型不存在一条直线将数据点分成两类，其是线性不可分的模型。因此感知机不能表示异或。

2.2解:
取正实例集: $x_{1}=(4, 2), x_{2}=(3, 4)$ , 负实例集: $x_{3}=(0, 1)$ . 取初始值 $\omega_{0}=0, b_{0}=0$ 。
在这里插入图片描述
感知机算法收敛后，我们得到超平面 $S:4x_{1} - 1=0$ .将其可视化：

2.3 解：
这边有详细解答

Mr.小蔡

关注

6
点赞
踩
50

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》习题答案

第一章统计学习及监督学习概论课后习题1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。解：① 统计学习的三要素分别是模型、策略、算法。模型：伯努利模型，即定义在取值为0与1的随机变量上的概率分布。策略：极大似然估计和贝叶斯估计的策略都是对数损失函数，只不过贝叶斯估计使用的是结构风险最小化。算
复制链接

扫一扫