【全网最全】《统计学习方法》习题答案

最新推荐文章于 2022-04-03 15:02:06 发布

聪明勇敢的乔威同学

最新推荐文章于 2022-04-03 15:02:06 发布

阅读量6.8k

点赞数 21

文章标签：算法机器学习

本文链接：https://blog.csdn.net/qq_42911960/article/details/115255714

版权

习题3.2

利用例题3.2构造的kd树求出点 $x=(3,4.5)^T$ 的最近邻点

从根节点出发，因为 $x^{(1)}<7$ , 所以进入左孩子一侧，又因为 $x^{(2)}>4.5$ ，所以选定叶节点 $(4, 7)$ 作为“当前最近点”，开始递归。
向上回退到 $(4, 7)$ 的父节点 $(5, 4)$ ，设其为当前节点，因为父节点离 $x$ 更近一些，所以更新"当前最近点"为 $(5, 4)$ 。
因为父节点 $(5, 4)$ 生成的超平面 $x^{(2)}=4$ 与以 $x = （ 3 ， 4.5 ）$ 为圆心，以 $\frac{\sqrt{17}}{2}$ 为半径的圆有交点，所以还需要判断当前节点的左孩子 $(2, 3)$ 是不是更近。
因为左子树中只有一个节点，所以可以直接判断得知，需要更新“当前最近点”为 $(2, 3)$ ，此时距离为 $\frac{\sqrt{13}}{2}$ ，然后回到父节点 $(5, 4)$ ，把当前节点设为更高一层的 $(7, 2)$ 。
因为 $(7, 2)$ 更远，所以不更新“当前最近点”。
因为 $(7, 2)$ 形成的超平面 $x^{(1)}=7$ 与以 $(2, 3)$ 为圆心，以 $\frac{\sqrt{13}}{2}$ 为半径的圆没有交点，所以当前节点的右子树不用进行检测。
因为 $(7, 2)$ 已经是根节点了，所以结束搜索，得到最近邻点是 $(2, 3)$ 。

习题3.3

参照算法3.3，写出输出为x的k近邻的算法

令算法3.3得到的函数为
$approx\_node = NN(kd\_tree, node)$
即输入一个kd树以及目标点 $x$ ，就会输出一个最近的节点 $approx\_node$ ，此外还需要调用之前的算法3.2来构造kd树，
$tree = kd\_tree(dataset)$
下面就用这两个函数，写出能得到k个最近的节点的函数 $K N N$ ，

#输入：目标点x，最近邻的数量k，数据集T
#输出：k个T中的节点
def KNN(dataset T, int k, node x):
	node_list = []
	tree = kd_tree(T)
	for i in range(1,k+1):
		approx_node = NN(tree)
		node_list.append(approx_node)
		if node.depth != 1:
			tree.approx_node.x[1] = inf
   	else: 
   		tree.approx_node.x[2] = inf
	return node_list

这个函数的想法就是重复调用k次 $N N$ 函数，因为重新建立kd树的计算复杂度为 $O (N)$ ，而每次查找的平均计算复杂度仅为 $O(\log{N})$ ，所以为了不重新建树，需要更改树本身的结构来代替，方法是每次找到的最近邻点加入到一个待输出的列表中，然后更改最近邻点的坐标，使其距离目标点充分远，不会影响下一次最近邻点的选择。

习题4.1

用极大似然估计法，推出朴素贝叶斯法中的概率估计公式 $(4.8)$ 以及公式 $(4.9)$

证明公式 $(4.8)$ ：

假设先验概率为
$p=P(Y=c_k)$
一共经抽样得到 $n$ 个样本点，每次抽样的结果是独立同分布的，分别为 $y_1,y_2,\cdots,y_n$ 其中符合 $y=c_k$ 的样本点有 $m$ 个，那么根据二项分布，可以求得似然概率为
$P(y_1,\cdots,y_n)=p^m\cdot (1-p)^{n-m}$
为了要让 $P(y_1,\cdots,y_n)$ 的值最大，需要对 $p$ 求导，得到下式
$\frac{dP}{dp}=mp^{m-1}(1-p)^{n-m}-(n-m)p^m (1-p)^{n-m-1}\\ =p^{m-1}(1-p)^{n-m-1}(m-np)$
所以当 $p=\frac{m}{n}$ 时，函数取得最大值，因为
$\sum_{i=1}^{n}I(y_i=c_k)=p[\sum_{i=1}^{n}I(y_i\neq c_k)+\sum_{i=1}^{n}I(y_i = c_k)]=pn$
所以
$P(Y=c_k)=p=\frac{\sum_{i=1}^{n}I(y=c_k)}{n}$

证明公式 $(4.9)$ ：

假设条件概率为
$p=P(X^{(j)}=a_{jl}|Y=c_k)$
一共经抽样得到 $N$ 个样本点，分别为 $x_1,x_2,\cdots,x_N$ ，对应的输出分别为 $y_1,y_2,\cdots,y_N$ ，其中符合条件 $Y=c_k$ 的样本点有 $n$ 个，那么 $n$ 可以用如下等式表示
$n=\sum_{i=1}^{N}I(x_i)$
假设它们第 $j$ 个分量是独立同分布的，上述 $n$ 个样本点中一共有 $m$ 个满足 $X^{(j)}=a_{jl}$ ，那么根据二项分布，可以求得事件 $X^{(j)}=a_{jl}|Y=c_k)$ 似然概率为
$P(y_1,\cdots,y_N)=p^m\cdot (1-p)^{n-m}$
为了要让 $P(y_1,\cdots,y_n)$ 的值最大，需要对 $p$ 求导，得到下式
$\frac{dP}{dp}=mp^{m-1}(1-p)^{n-m}-(n-m)p^m (1-p)^{n-m-1}\\ =p^{m-1}(1-p)^{n-m-1}(m-np)$
所以当 $p=\frac{m}{n}$ 时，函数取得最大值，又因为
$\sum_{i=1}^{N}I(y_i=c_k)=p(\sum_{i=1}^{N}I(y_i=c_k)+\sum_{i=1}^{N}I(y_i\neq c_k))=pN$
所以
$P(X^{(j)}=a_{jl}|Y=c_k)=p=\frac{\sum_{i=1}^{N}I(x_i^{j}=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$

习题5.1

根据表5.1所给的训练数据集，利用信息增益比(C4.5算法)生成决策树

首先分别以 $A_1$ ， $A_2$ ， $A_3$ ， $A_4$ ，表示年龄，有工作，有房子，信贷情况，整个数据集记为 $D$

第一轮

根据定义5.3, 可以计算出数据集 $D$ 关于每个特征 $A$ 的值的熵
$H_{A_1}(D) = 1.584 \\ H_{A_2}(D) = 0.918 \\ H_{A_3}(D) = 0.971 \\ H_{A_4}(D) = 1.566$
然后再根据例5.2得到的如下信息增益，
$g(D,A_1) = 0.083 \\ g(D,A_2) = 0.324 \\ g(D,A_3) = 0.420 \\ g(D,A_4) = 0.363$
从而得到关于每个特征的信息增益比
$g_R(D,A_1) = 0.052 \\ g_R(D,A_2) = 0.353 \\ g_R(D,A_3) = 0.433 \\ g_R(D,A_4) = 0.232$
从而选择 $A_3$ 作为根节点，令所有满足 $A_3= yes$ 的数据为 $D_1$ ，令所有满足 $A_3 = no$ 的数据为 $D_2$ ，因为 $D_1$ 中所有的数据均属于同一类，所以不用继续递归了，而 $D_2$ 中数据不是同一类，所以需要第二轮递归再进一步分类。

第二轮

再来计算数据集 $D_2$ 关于其余每个特征的 $A$ 的值的熵
$H_{A_1}(D_2) = 1.530 \\ H_{A_2}(D_2) = 0.918\\ H_{A_4}(D_2) = 0.340$
再计算信息增益
$g(D_2,A_1) = 0.251\\ g(D_2,A_2) = 0.918\\ g(D_2,A_4) = 0.474$
从而得到关于每个特征的信息增益比
$g_R(D_2,A_1) = 0.164\\ g_R(D_2,A_2) = 1.000\\ g_R(D_2,A_4) = 0.340$
选择信息增益比最大的特征 $A 2$ 作为节点的特征，发现两个分支形成的数据集 $D_{21}$ 和 $D_{22}$ 里的元素都属于同一类别，所以递归结束。

最终结果

习题5.2

已知如下表所示的训练数据，试用平方误差损失准则生成一个二叉回归树

$x_1$ $x_2$ $x_3$ $x_4$ $x_5$ $x_6$ $x_7$ $x_8$ $x_9$ $x_{10}$
4.50 4.75 4.91 5.34 5.80 7.05 7.90 8.23 8.70 9.00

$x_1$	$x_2$	$x_3$	$x_4$	$x_5$	$x_6$	$x_7$	$x_8$	$x_9$	$x_{10}$
4.50	4.75	4.91	5.34	5.80	7.05	7.90	8.23	8.70	9.00

因为数据集的输入变量 $x_i$ 是标量，所以直接扫描切分点，把样本点递归分成若干区间，具体的分化情况如下图所示

习题5.3

证明CART剪枝算法中，当 $\alpha$ 确定时，存在唯一的最小子树 $T_{\alpha}$ 使损失函数 $C_{\alpha}(T)$ 最小

先证明存在性：

因为给定的数据集通过算法得到的生成树是确定的，所以所有可能的子树数量是有限的，所以一定存在若干子树，使得损失函数 $C_{\alpha}(T)$ 是其中最小的，存在性得证

再证明唯一性：

在 $\alpha$ 确定的情况下，假设存在两棵不同的 $T$ 的子树 $P$ 和 $Q$ ，使得损失函数均是最小的，即
$C_{\alpha}(P)=C_{\alpha}(Q)$
首先证明：根据CART剪枝算法的规则， $P$ 和 $Q$ 至少各有一处叶结点互不相同。

假设命题不成立，那么 $P$ 和 $Q$ 存在了包含关系，不妨设对于叶结点 $t$ ，有 $t\in P$ 但是 $\notin Q$ ，这是不可能的，因为选择剪枝的时候，需要满足
$C_{\alpha}(T_t) < C_{\alpha}(t)$
从而不满足损失函数相等的条件，假设不成立。

再来证明：在 $P$ 和 $Q$ 至少各有一处叶结点互不相同的情况下，两棵子树均不是最优的。

假设 $P$ 中有结点 $p$ 满足 $\notin Q$ ，并且 $Q$ 中有结点 $q$ 满足 $\notin P$ ，那么根据剪枝的规则，可得
$C_{\alpha}(T_p) > C_{\alpha}(p) \\ C_{\alpha}(T_q) > C_{\alpha}(q)$
否则剪枝不会发生，所以存在 $T$ 的子树 $M$ 满足 $q\notin M$ 并且其余叶结点与 $P$ 一样，那么 $M$ 比 $P$ 的损失函数更小，从而也比 $Q$ 的损失函数更小，假设不成立，从而原命题得证。

习题6.2

写出逻辑斯蒂回归模型学习的梯度下降算法

假设给定的数据集为 $X=\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ ，对应的标签为 $Y=\{y^{(1)},y^{(2)},\cdots,y^{(m)}\}$ ，

其中 $x^{(i)}=(x_1^{(i)},\cdots,x_{n-1}^{(i)},1) \in R^n$ ， $y^{(i)} \in \{0,1\}$ ，特别需要说明的是，这里把常数项放到了数据集里，所以最后一个分量都是 $1$ ，需要学习的参数记为 $\omega = (\omega_1,\omega_2,\cdots,\omega_n)$ 。根据书本第93页的推导可知，对数似然函数为
$L(\omega) = \sum_{i=1}^{m}[y^{(i)}(\omega \cdot x^{(i)})-\log(1+\exp{(\omega \cdot x^{(i)})})]$
需要对 $L(\omega)$ 求偏导数
$\nabla L(\omega) = (\frac{\partial L}{\partial \omega_1},\cdots,\frac{\partial L}{\partial \omega_n})$
其中
$\frac{\partial L}{\partial \omega_i}=x^{(i)}_iy-\frac{\omega_i\exp\{w_1x^{(i)}_1+\cdots+w_nx^{(i)}_n\}}{1+\exp\{w_1x^{(i)}_1+\cdots+w_nx^{(i)}_n\}}$

从而通过设置步长 $\alpha$ ，终止迭代阈值eps，可以设计如下算法

设定迭代起点 $x$ 初值
根据上面写出来的公式，得到对应位置的梯度值 $\omega$
根据迭代步长算出新的梯度算出下个迭代点 $\alpha \omega$
判断 $\alpha|\omega|< eps$ 是否成立，成立则结束，否则返回第二步

习题7.1

比较感知机的对偶形式与线性可分支持向量机的对偶形式。

对于给定的数据集
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
其中 $x_i \in R^n, y_i \in \{-1,1\}$ ， $i=1,2,\cdots,N$ ，最后学习到的平面
$\omega \cdot x+b=0$
的参数，在两个算法的对偶形式中，有如下不同的计算方法：

感知机的对偶形式
$\omega=\sum_{i=1}^{N}\alpha_iy_ix_i \\ b = \sum_{i=1}^{N}\alpha_iy_i$
其中的 $\alpha=(\alpha_1,\cdots,\alpha_N)$ ，对于 $\forall i \in \{1,2,\cdots,N\}$ ，都有
$y_i(\sum_{j=1}^{N}\alpha_iy_jx_j \cdot x_i+b) \leq 0$
线性可分支持向量机的对偶形式
$\omega=\sum_{i=1}^{N}\alpha_iy_ix_i \\ b = y_1 - \sum_{i=1}^{N}\alpha_iy_1(x_i \cdot x_j)$
其中的 $\alpha=(\alpha_1,\cdots,\alpha_N)$ 是通过求解
$\mathop{\arg\min}\limits_{\alpha} ( \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^{N}\alpha_i)$
得到的，还要满足额外的约束条件 $a_i \geq 0$ ， $\forall i \in \{1,\cdots,N\}$ ，并且
$\sum_{i=1}^{N}\alpha_iy_i = 0 \\$

习题7.2

已知正例点 $x_1=(1,2)^T$ ， $x_2=(2,3)^T$ ， $x_3=(3,3)^T$ ，负例点 $x_4=(2,1)^T$ ， $x_5=(3,2)^T$ ，试求最大间隔分离超平面和分类决策函数，并在图上画出分离超平面，间隔边界及支持向量。

按照最大间隔法，根据训练数据集构造约束最优化问题：
$\min_{\omega,b} \frac{\omega_1^2+\omega_2^2}{2}$
使得
$\omega_1+2\omega_2+b\geq 1 \\ 2\omega_1+3\omega_2+b\geq 1 \\ 3\omega_1+3\omega_2+b\geq 1 \\ -2\omega_1 - \omega_2 - b\geq 1 \\ -3\omega_1-2\omega_2-b\geq 1$

计算得当 $\omega=(1,-2)$ ， $b = 2$ 时，目标函数取到最小值，所得的超平面为
$x - 2 y + 2 = 0$
即为下图中的实线，位于边界上的点是支持向量
在这里插入图片描述

习题7.3

线性支持向量机还可以定义为以下形式：
$\min_{\omega,b,\xi}\frac{||\omega||}{2}+C\sum_{i=1}^{N}\xi_i^2$
使得
$y_i(\omega \cdot x_i+b)\geq 1-\xi_i,\quad i=1,2,\cdots,N \\ \xi_i\geq0 ,\quad i=1,2,\cdots,N$
试求其对偶形式。

定义拉格朗日函数
$L(w,b,\xi, \alpha, \beta) = \frac{\|w\|^2}{2} + C \sum_{i=1}^N \xi_i^2 + \sum_{i=1}^N \alpha_i (1-\xi_i-y_i (w \cdot x_i + b)) - \sum_{i=1}^N \beta_i \xi_i$

分别对 $w,b,\xi$ 求偏导数
$\left \{ \begin{array}{l} \displaystyle \nabla_{\xi} L = 2C \xi_i - \alpha_i - \beta_i = 0 \\ \displaystyle \nabla_w L = w - \sum_{i=1}^N \alpha_i y_i x_i = 0 \\ \displaystyle \nabla_b L = -\sum_{i=1}^N \alpha_i y_i = 0 \\ \end{array} \right.$
从而可以化简为
$\left \{ \begin{array}{l} \displaystyle \xi_i = \frac{1}{2C}(\alpha_i + \beta_i) \\ \displaystyle \sum_{i=1}^N \alpha_i y_i = 0 \\ \displaystyle w = \sum_{i=1}^N \alpha_i y_i x_i \end{array} \right.$
解得对拉格朗日函数中的 $\omega$ 和 $\xi$ 做变量替换，得到新的形式
$L(\alpha,\beta)=-\frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i \cdot x_{j})+\sum_{i=1}^N \alpha_i-\frac{1}{4C}\sum_{i=1}^N(\alpha_i+\beta_i)^2$
那么对偶问题就是求解
$\mathop{\arg\min}\limits_{\alpha,\beta}L(\alpha,\beta)$
还要满足额外的约束条件 $a_i \geq 0$ ， $\forall i \in \{1,\cdots,N\}$ ，并且
$\sum_{i=1}^{N}\alpha_iy_i = 0$

习题7.4

证明内积的正整数幂函数：
$\cdot z)^p$
是正定核函数，这里 $p$ 是正整数， $\in \mathbb{R^n}$

用数学归纳法证明：对于 $\forall \alpha=(\alpha_1,\cdots,\alpha_n)^T$ ，

当 $p = 1$ 时，因为 $\alpha^T(x \cdot x)\alpha \geq 0$ ，当且仅当 $\alpha=0$ 取等号，根据定理7.5，结论显然成立，

当 $p = k$ 时，假设结论成立，即存在函数 $\phi_k$ 使得
$\phi_k(x) \cdot \phi_k(z)$
那么当 $p = k + 1$ 时，
$(x\cdot z)^{k+1} = \phi_k(x)\phi_k(z) (x\cdot z)$
令映射函数由以下形式变换得到
$\phi_k(x) = (f_1(x),f_2(x),\cdots,f_n(x))^T$
那么构造
$\phi_{k+1}(x) = (x_1f_1(x),x_2f_2(x),\cdots,x_nf_n(x))^T$
其中
$x=(x_1,x_2,\cdots,x_n)^T$
于是就有
$\phi_{k+1}(x)\cdot\phi_{k+1}(z)$
从而当 $p = k + 1$ 时，结论也成立，命题得证

习题8.1

某公司招聘职员考察身体、业务能力、发展潜力这3项。身体分为合格0、不合格1两级，业务能力和发展潜力分为上1、中2、下3三级。分类为合格1、不合格-1两类。已知10个人的数据，如下表所示

1 2 3 4 5 6 7 8 9 10
身体 0 0 1 1 1 0 1 1 1 0
业务能力 1 3 2 1 2 1 1 1 3 2
发展潜力 3 1 2 3 3 2 2 1 1 1
分类 -1 -1 -1 -1 -1 -1 1 1 -1 -1

假设若分类器为决策树桩。用AdaBoost算法学习一个强分类器。

	1	2	3	4	5	6	7	8	9	10
身体	0	0	1	1	1	0	1	1	1	0
业务能力	1	3	2	1	2	1	1	1	3	2
发展潜力	3	1	2	3	3	2	2	1	1	1
分类	-1	-1	-1	-1	-1	-1	1	1	-1	-1

假设身体为 $\mathcal{X}\in\{0,1\}$ ，业务能力为 $\mathcal{Y}\in\{1,2,3\}$ ，发展潜力为 $\mathcal{Z}\in\{1,2,3\}$ ，输入变量为
$t=(t_1,t_2,t_3) \in (\mathcal{X},\mathcal{Y},\mathcal{Z})$
有如下三个决策树桩：
$G_1(t)=\left\{ \begin{aligned} 1 &, &t_1=1\\ -1 &, &t_1=0 \\ \end{aligned} \\ \right. G_2(t)=\left\{ \begin{aligned} 1 &, &t_2=1\\ -1 &, &t_2\neq1 \\ \end{aligned} \right.\\ G_3(t)=\left\{ \begin{aligned} 1 &, &t_3=1\\ -1 &, &t_3\neq1 \\ \end{aligned} \right.$
从而可以算出对应的分类误差率 $e_1=0.4$ ， $e_2=0.3$ ， $e_3=0.3$ ，从而可以算出每个弱分类器的系数
$\alpha_1=0.585\\ \alpha_2=0.611\\ \alpha_3=0.611$
那么所得的强分类器为
$G(t) = 0.585G_1(t)+0.611G_2(t) + 0.611G_3(t)$
验证可知分类误差率 $e = 0.2$ 。

习题8.2

比较支持向量机、AdaBoost、逻辑斯蒂回归模型的学习策略与算法

支持向量机
学习策略：对于线性可分的数据集，求解目标超平面，让此超平面能正确分类所有样本点，并且离最近样本点的距离是所有超平面中最小的；对于线性不可分的数据集，给每一组数据加上一个松弛变量，在这个宽松的意义下，求解超平面让此超平面能正确分类所有样本点，让平面系数向量的模和宽松系数向量的模达到最小值。两个算法都是通过求解拉格朗日对偶问题求解的。

学习算法：序列最小最优化算法，对于给定的数据集 $T$ 、精度 $\epsilon$ 、核函数 $K$ ，目标是求对偶问题的解 $\alpha$ ，算法具体是先将 $\alpha$ 初始化为 $0$ ，然后只选择两个变量，固定其余变量，求得最优解并更新 $\alpha$ ，检验停机条件在 $\epsilon$ 的误差范围内是否成立，不成立重新选两个变量进行循环，成立就结束循环，通过 $\alpha$ 得到超平面参数 $\omega$ 、 $b$ 。
AdaBoost
学习策略：极小化加法模型指数损失，提高前一轮分类器错误分类的样本权重，同时降低错误率高的分类器权重，进而将所有若分类器乘以对应的权重做线性组合，输出结果。

学习算法：前向分步加法算法，对于给定的数据集合 $T$ 以及基函数集 $\{b(\gamma,x)\}$ ，先初始化一个分类函数，然后通过极小化损失函数得到新的参数，加到之前一轮的函数上，如此循环若干次，把同时求解所有参数转化成逐个求解，每次求出当前意义下最优化的参数。
Logistic回归
学习策略：Logistic回归模型是以似然函数为目标的最优化问题，通过迭代算法求解，学习到的最优模型应该是所有可能概率模型中，熵最大的那个。
学习算法：改进的迭代尺度算法，思想是假设最大熵模型当前的参数向量是 $\omega$ ，然后找到一个参数 $\delta$ ，使得模型的对数似然函数增大，持续循环直到找到最大值。

习题14.1

试写出分裂聚类算法，自上而下地对数据进行聚类，并给出其算法复杂度

输入：n个样本点组成的样本集合，样本点间的度量
输出：对样本集合的一个层次化聚类

（1）把所有的样本点当成一个类，计算中心点坐标 $c$

（2）计算当前各类的中心点 $c_1，\cdots，c_i$

（3）找到所有样本点中离自己类中心最远的样本点 $s_j$ ，其对应的类为 $T_p$ ，中心点为 $c_p$

（4）计算离 $s_j$ 最近的中心点 $c_q$ ，如果 $p = q$ ，那么 $s_j$ 创建一个新的类，否则归到类 $T_q$

（5）如果现在已经有了n个类，那么结束，否则回到（2）

上面给出的算法复杂度为 $O(n^3m)$ ，其中样本点数量为n，维度为m。

习题14.2

证明类或簇的四个定义中，第一个定义可以推出其他三个定义

定义14.5 $\Longrightarrow$ 定义14.6

假设集合G是满足定义14.5的类，具体来说，对于 $\forall x_i , x_j \in G$ ，有 $d(x_i,x_j)\leq T$ 成立，从而对于任意给定的 $x_p$ ，一定存在 $x_q$ ，使得 $d(x_p,x_q)\leq T$ 。

定义14.5 $\Longrightarrow$ 定义14.7

假设 $T=\max\{d(x_i,x_j)|i,j=1,\cdots,n\}$ ，对于集合 $G$ ，如果对于 $\forall x_i , x_j \in G$ ，有 $d(x_i,x_j)\leq T$ 成立，从而对于给定的样本点 $x_p$ ，有
$\frac{1}{n_G-1}\sum_{x_j\in G-\{x_q\}}d(x_p,x_j) \leq T$
其中 $n_G$ 为 $G$ 中样本的个数。

定义14.5 $\Longrightarrow$ 定义14.8

对于给定的 $T$ 和 $V$ ，假设 $t = \min\{T,V\}$ ，对于集合 $G$ ，如果对于 $\forall x_i , x_j \in G$ ，有 $d(x_i,x_j)\leq t$ 成立，从而有
$\frac{1}{n_G(n_G-1)}\sum_{x_i\in G}\sum_{x_j\in G}d(x_i,x_j)\leq T \\ d(x_i,x_j) \leq V$
其中 $n_G$ 为 $G$ 中样本的个数。

习题14.3

i证明n个样本分到k类，所有可能分法的数目是
$S(n,k)=\frac{1}{k!}\sum_{l=1}^k(-1)^{k-l}\begin{pmatrix} k\\ l\end{pmatrix}k^n$
即k均值的可能解的个数是指数级的

我觉得这道证明题的结论有问题：

归类最后一个样本点时，有两种情况需要考虑：第一种是已经存在了k个类，所以最后一个可以归到任何类中；第二种是只存在k-1个类，所以最后一个只能单独成一类。从而可以写出递推表达式如下
$S (n, k) = S (n - 1, k - 1) + k S (n - 1, k)$
易知递归的终点为 $S (k, k) = 1$ ， $S (k, 0) = 0$ ，下面说明
$S(n,k)=\frac{1}{k!}\sum_{l=1}^k(-1)^{k-l}C_k^l l^n$
是递推关系式的通项。递归终点显然符合结论，根据组合数的性质，我们有
$S(n,k)=\frac{1}{k!}\sum_{l=1}^k(-1)^{k-l}C_k^ll^n \\ = \sum_{l=1}^k (-1)^{k-l}\frac{l^n}{(k-l)!l!} \\ = \sum_{l=1}^k \frac{(-1)^{k-l}}{(k-l)!}\cdot\frac{l^n}{l!} \\$
把右端项带入上式，可以得到
$\sum_{l=1}^{k-1} \frac{(-1)^{k-1-l}}{(k-1-l)!}\cdot\frac{l^{n-1}}{l!}$

$\sum_{l=1}^{k} \frac{(-1)^{k-l}}{(k-l)!}\cdot\frac{l^{n-1}}{l!}$

从而通过作差得
$\sum_{l=1}^{k} \frac{(-1)^{k-l}}{(k-l)!}\cdot\frac{l^{n-1}(l-k)}{l!}\\ = \sum_{l=1}^{k} \frac{(-1)^{k-1-l}}{(k-1-l)!}\cdot\frac{l^{n-1}}{l!} \\ = S(n-1,k-1)$
从而假设得证

习题15.2

试求矩阵
$A=\left[ \begin{matrix} 2 & 4 \\ 1 & 3 \\ 0 & 0 \\ 0 & 0 \\ \end{matrix} \right]$
的奇异值分解并写出其外积展开式

计算对称矩阵
$W=A^TA= \left[ \begin{matrix} 2 & 1 & 0 & 0 \\ 4 & 3 & 0 & 0 \\ \end{matrix} \right] \left[ \begin{matrix} 2 & 4 \\ 1 & 3 \\ 0 & 0 \\ 0 & 0 \\ \end{matrix} \right]= \left[ \begin{matrix} 5 & 11 \\ 11 & 25 \\ \end{matrix} \right]$
特征值 $\lambda$ 和特征向量 $x$ 满足特征方程
$(W-\lambda I)x=0$
从而得到线性方程组
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \left\{ \begin…$
该方程组有非零解的充要条件是
$\left| \begin{matrix} 5-\lambda & 11 \\ 11 & 25-\lambda \end{matrix} \right| =0$
即 $\lambda^2-30\lambda+4=0$ ，得到特征值 $\lambda_1=15+\sqrt{221}$ ，对应特征向量
$v_1 = \left[ \begin{matrix} 1 \\ \frac{10+\sqrt{221}}{11}\\ \end{matrix} \right]$
特征值 $\lambda_2=15-\sqrt{221}$ ，对应特征向量
$v_2 = \left[ \begin{matrix} -\frac{10+\sqrt{221}}{11} \\ 1 \end{matrix} \right]$
于是可以构造正交矩阵 $V$ 和对角矩阵 $\Sigma$ 如下
$\left[ \begin{matrix} 1 & -\frac{10+\sqrt{221}}{11} \\ \frac{10+\sqrt{221}}{11} & 1 \end{matrix} \right]\\ \Sigma = \left[ \begin{matrix} \sqrt{15+\sqrt{221}} & 0 \\ 0 & \sqrt{15-\sqrt{221}} \\ 0 & 0 \\ 0 & 0 \\ \end{matrix} \right]\\$
因为
$u_1=\frac{1}{\sqrt{\lambda_1}}Av_1= \left[ \begin{matrix} \frac{62+4\sqrt{221}}{11\sqrt{15+\sqrt{221}}}\\ \frac{41+3\sqrt{221}}{11\sqrt{15+\sqrt{221}}}\\ 0 \\ 0 \end{matrix} \right] \\ u_2=\frac{1}{\sqrt{\lambda_2}}Av_2= \left[ \begin{matrix} \frac{24-3\sqrt{221}}{11\sqrt{15-\sqrt{221}}}\\ \frac{23-\sqrt{221}}{11\sqrt{15-\sqrt{221}}}\\ 0 \\ 0 \end{matrix} \right]$
令列向量 $u_3$ 和 $u_4$ 是 $A^T$ 的零空间 $\mathcal{N}(A^T)$ 上的一组标准正交基，先求解线性方程组
$A^Tx=\left[ \begin{matrix} 2 & 1 & 0 & 0 \\ 4 & 3 & 0 & 0 \\ \end{matrix} \right] \left[ \begin{matrix} x_1\\ x_2\\ x_3\\ x_4\\ \end{matrix} \right]=0$
令 $x_3,x_4)$ 分别为 $(1, 0)$ 和 $(0, 1)$ ，那么可得
$u_3=\left[ \begin{matrix} 0 & 0 & 1 &0 \end{matrix} \right]^T \\ u_4=\left[ \begin{matrix} 0 & 0 & 0 & 1 \end{matrix} \right]^T$
从而可以构造正交矩阵
$U=\left[ \begin{matrix} \frac{62+4\sqrt{221}}{11\sqrt{15+\sqrt{221}}} &\frac{24-3\sqrt{221}}{11\sqrt{15-\sqrt{221}}} & 0 & 0\\ \frac{41+3\sqrt{221}}{11\sqrt{15+\sqrt{221}}} & \frac{23-\sqrt{221}}{11\sqrt{15-\sqrt{221}}} & 0 & 0\\ 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1 \end{matrix} \right]$
矩阵 $A$ 的外积展开式为
$=\frac{1}{\sqrt{{\lambda_1}}}u_1v_1^T+ \frac{1}{\sqrt{{\lambda_2}}}u_2v_2^T$

习题15.3

比较矩阵的奇异值分解与对称矩阵的对角化的异同

相似点：

都是根据矩阵特征值，得到对角元，然后将一个矩阵分解成三个矩阵乘积的形式。
奇异值和对称矩阵对角化后的对角元都是唯一确定的。

不同点：

奇异值是矩阵自乘之后，得到的特征值的平方根；而对称矩阵的对角化，是根据本身的特征值。
如果矩阵不是一个方阵，那么奇异值组成的矩阵不是方阵；而对称矩阵对角化得到的对角矩阵一定是一个方阵。

习题15.4

证明任何一个秩为1的矩阵可写成两个向量的外积形式，并给出实例

对于矩阵 $A_{n\times n}$ ，满足 $r (A) = 1$ ，那么 $\exists P$ 是可逆阵，使得
$PA=[v_1，0，\cdots， 0]$
其中 $v_1$ 是 $1\times n$ 的行向量，令 $e_1=[1,0,\cdots,0]$ ，从而
$PA = e_1^Tv_1 \\ A =P^{-1}e_1^Tv_1$
再令 $u_1^T=P^{-1}e_1^T$ ，从而有 $A=u_1^Tv_1$ 得证

习题15.5

搜索中的点击数据记录用户搜索时提交的查询语句，点击的网页URL，以及点击的次数，构成一个二部图，其中一个结点集合 ${q_i\}$ 表示查询，另一个结点集合 ${u_j\}$ 表示URL，边表示点击关系，边上的权重表示点击次数。下图是一个简化的点击数据例。

点击数据可以由矩阵表示，试对该矩阵进行奇异值分解，并解释得到的三个矩阵所表示的内容。

令 $q_i,u_j)$ 表示查询 $q_i$ 到结点 $u_j$ 的点击次数，其中 $i\in\{1,2,3,4\},j\in\{1,2,3,4,5\}$ ，可以将上图转化成如下矩阵
$\begin{bmatrix} 0 & 20 & 5 & 0 & 0 \\ 10 & 0 & 0 & 3 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 1 & 0 & 0 \\ \end{bmatrix}$
其中位置 $A_{ij}$ 对应 $q_i,u_j)$ ，如果不存在即为0，可以得到分解结果如下
$\begin{bmatrix} 0.999 & 0 & 0 & -0.012 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ -0.012 & 0 & 0 & 0.999\\ \end{bmatrix} \\ \Sigma= \begin{bmatrix} 20.6 & 0 & 0 & 0 & 0 \\ 0 & 10.4 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0.97 & 0 \\ \end{bmatrix} \\ V^T = \begin{bmatrix} 0 & 0.97 & 0.243 & 0 & 0\\ 0.958 & 0 & 0 & 0.287 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & -0.243 & 0.97 & 0 & 0 \\ 0.287 & 0 & 0 & -0.958 &0 \end{bmatrix}$

矩阵 $U$ 表示两个查询之间的相关程度；矩阵 $\Sigma$ 对角元对应每个查询的次数占总查询中的比重，查询次数多则对应对角元数值大；矩阵 $V^T$ 表示不同网页结点之间的相关性。

习题16.1

对以下样本数据进行主成分分析：
$\begin{bmatrix} 2 & 3 & 3 & 4 & 5 & 7 \\ 2 & 4 & 5 & 5 & 6 & 8 \end{bmatrix}$

样本均值向量为
$\overline{x} = \frac{1}{6} \sum_{i=1}^6 x_i= (4,5)^T$
从而得到样本协方差矩阵为
$\begin{bmatrix} \frac{16}{5} & \frac{17}{5} \\ \frac{17}{5} & 4 \end{bmatrix}$
对样本矩阵 $X$ 进行规范化得到新矩阵
$\begin{bmatrix} -\frac{\sqrt{5}}{2} & -\frac{\sqrt{5}}{4} & -\frac{\sqrt{5}}{4} & 0 & \frac{\sqrt{5}}{4} & \frac{3\sqrt{5}}{4} \\ -\frac{3}{2} & -\frac{1}{2} & 0 & 0 & \frac{1}{2} & \frac{3}{2} \end{bmatrix}$
根据公式计算得到样本相关矩阵
$\frac{1}{5}AA^T= \begin{bmatrix} 1 & \frac{17\sqrt{5}}{40} \\ \frac{17\sqrt{5}}{40} & 1 \end{bmatrix}$
求得矩阵 $R$ 的特征值为 $\lambda_1 = 1+\frac{17}{40}\sqrt{5}$ 以及 $\lambda_2=1-\frac{17}{40}\sqrt{5}$ ，对应的单位特征向量为
$a_1 = (\frac{\sqrt{2}}{2},\frac{\sqrt{2}}{2})^T \\ a_2 = (\frac{\sqrt{2}}{2},-\frac{\sqrt{2}}{2})^T$
于是样本主成分矩阵为
$\begin{bmatrix} 2\sqrt{2} & \frac{7\sqrt{2}}{2} & 4\sqrt{2} & \frac{9\sqrt{2}}{2} & \frac{11\sqrt{2}}{2} & \frac{15\sqrt{2}}{2} \\ 0 & -\frac{\sqrt{2}}{2} & -\sqrt{2} & -\frac{\sqrt{2}}{2} & -\frac{\sqrt{2}}{2} & -\frac{\sqrt{2}}{2} \end{bmatrix}$

习题16.2

证明样本协方差矩阵 $S$ 是总体协方差矩阵方差 $\Sigma$ 的无偏估计

假设随机变量 $X$ 有观测序列 $X_n=\{x_1,x_2,\cdots,x_n\}$ ， $Y$ 有观测序列 $Y_n=\{y_1,y_2,\cdots,y_n\}$ ，那么根据样本协方差矩阵元素的算法可得
$\begin{aligned} Cov(X_n,Y_n) &= E\left[\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) \right] \\ &= \frac{1}{n-1} E\left[\sum_{i=1}^{n} (x_iy_i - \overline{x}y_i - \overline{y}x_i + \overline{x}\overline{y}) \right]\\ &= \frac{1}{n-1} E\left[\sum_{i=1}^nx_iy_i - \overline{x}\sum_{i=1}^ny_i-\overline{y}\sum_{i=1}^nx_i +n\overline{x}\overline{y} \right] \\ &=\frac{E\left[ \sum x_iy_i \right]}{n-1}-\frac{2E\left[\sum x_i \sum y_i \right]}{n(n-1)} + \frac{E\left[\sum x_i \sum y_i \right]}{n(n-1)} \\ &= \frac{E\left[ \sum x_iy_i \right]}{n-1}-\frac{E\left[\sum x_i \sum y_i \right]}{n(n-1)} \\ &= \frac{1}{n}E\left[\sum_{i=1}^n x_iy_i \right] - \frac{1}{n(n-1)}E\left[ \sum_{i=1}^n\sum_{j\neq i}^n x_i y_j \right]\\ &= E\left[\sum_{i=1}^n \frac{x_iy_i}{n} \right] - E\left[\sum_{i=1}^n \sum_{j\neq i}^n\frac{x_i}{n} \frac{y_j}{n-1} \right]\\ &= E\left[\sum_{i=1}^n \frac{x_iy_i}{n} \right] - E\left[\sum_{i=1}^n \frac{x_i}{n}\sum_{j\neq i}^n \frac{y_j}{n-1} \right]\\ &= E\left[\sum_{i=1}^n \frac{x_iy_i}{n} \right] - E\left[\sum_{i=1}^n \frac{x_i}{n} E\left[\sum_{j\neq i}^n\frac{y_j}{n-1} \right]\right]\\ &= E\left[\sum_{i=1}^n \frac{x_iy_i}{n} \right] - E\left[\sum_{i=1}^n \frac{x_i}{n} E\left[Y \right]\right]\\ &= E\left[\sum_{i=1}^n \frac{x_iy_i}{n} \right] - E\left[\sum_{i=1}^n \frac{x_i}{n} \right]E\left[Y \right]\\ &= E[XY] - E[X]\cdot E[Y] \\ &= Cov(X,Y) \end{aligned}$
从而命题得证

习题16.3

设 $X$ 为数据规范化样本矩阵，则主成分等价于求解以下最优化问题：
$\min_L \lVert X-L\rVert_F \\ s.t. \quad rank(L) \leq k$
这里 $F$ 是弗罗贝尼乌斯范数， $k$ 是主成分个数。试问为什么？

先证明充分性：

根据算法16.1，假设矩阵 $X'=\frac{1}{\sqrt{n-1}}X^T$ 可作如下的截断奇异值分解
$U_k\Sigma_kV_k$
从而得到样本主成分矩阵为
$V_k^TX=\sqrt{n-1}V_k^T(X')^T=\sqrt{n-1}\Sigma_k U_k^T$
令 $K=\frac{1}{\sqrt{n-1}}V_kY$ ，因为 $V_k$ 只有 $k$ 行，所以 $\leq k$ ，根据定理15.3，得
$\lVert X-K\rVert_F = \min_L\lVert X-L\rVert_F$
从而获得的矩阵 $K$ 就是最优化问题的解，得证

再证明必要性：

假设满足上面最优化问题的矩阵为 $L$ ，并且 $\leq k$ ，根据定理15.3，令矩阵 $X$ 有分解
$X=U\Sigma V^T$
那么矩阵
$U_k\Sigma_kV_k^T$
令 $Y=LV_k=U_k\Sigma_k$ ，则 $Y^TY=\Sigma_k\Sigma_k$ ，又因为
$X^TX=V\Sigma\Sigma V^T$
从而有
$V^TX(V^TX)^T=\Sigma\Sigma \\ V_k^TX(V_k^TX)^T=\Sigma_k\Sigma_k$
根据定理16.1可知， $Y=V_k^TX$ 即为主成分矩阵。

习题19.1

用蒙特卡洛积分法
$\int_{-\infty}^{+\infty}x^2\exp{(-\frac{x^2}{2})} dx$

令概率分布函数为
$\frac{1}{\sqrt{2\pi}}\exp{(-\frac{x^2}{2})}$
它的均值为0，方差为1，用蒙特卡洛求 $f (x) g (x)$ 在实数轴上的定积分，其中
$\sqrt{2\pi}x^2$
程序如下

import numpy as np
import random
import math
x = np.random.normal(0,1,[10000])
rst = math.sqrt(2*np.pi)*np.dot(x,x)/10000
print(rst)

结果输出为 $2.5227803197535947$ 。

习题19.4

验证具有以下转移概率矩阵的马尔可夫链是不可约的，但是周期性的。
$\begin{bmatrix} 0 & \frac{1}{2} & 0 & 0\\ 1 & 0 & \frac{1}{2} & 0\\ 0 & \frac{1}{2} & 0 & 1\\ 0 & 0 & \frac{1}{2} & 0\\ \end{bmatrix}$

先证明矩阵是不可约的：

经过两次状态转移之后的概率矩阵如下，元素 $(i, j)$ 的值表示 $P\{X(t+2)=i|X(t)=j\}$
$P^2 = \begin{bmatrix} \frac{1}{2} & 0 & \frac{1}{4} & 0 \\ 0 & \frac{3}{4} & 0 & \frac{1}{2} \\ \frac{1}{2} & 0 & \frac{3}{4} & 0 \\ 0 & \frac{1}{4} & 0 & \frac{1}{2} \\ \end{bmatrix}$
经过三次状态转移之后的概率矩阵如下，元素啊 $(i, j)$ 的值表示 $P\{X(t+3)=i|X(t)=j\}$
$P^3= \begin{bmatrix} 0 & \frac{3}{8} & 0 & \frac{1}{4} \\ \frac{3}{4} & 0 & \frac{5}{8} & 0 \\ 0 & \frac{5}{8} & 0 & \frac{3}{4} \\ \frac{1}{4} & 0 & \frac{3}{8} & 0 \\ \end{bmatrix}$
将三种跳转概率矩阵相加得
$P^2 +P^3 = \begin{bmatrix} \frac{1}{2} & \frac{7}{8} & \frac{1}{4} & \frac{1}{4} \\ \frac{7}{4} & \frac{3}{4} & \frac{9}{8} & \frac{1}{2} \\ \frac{1}{2} & \frac{9}{8} & \frac{3}{4} & \frac{7}{4} \\ \frac{1}{4} & \frac{1}{4} & \frac{7}{8} & \frac{1}{2} \\ \end{bmatrix}$
发现每一个位置都不为0，所以任意状态下，都可以经过1或者2或者3次跳转，有概率到达指定状态，所以矩阵 $P$ 是不可约的。

再证明矩阵是有周期性的：

因为第二次转跳的概率矩阵 $P^2$ 的对角元都不为0，所以偶数次的转跳都有可能回到原来的状态。又因为矩阵都有一样的形状 $P^{2n}$ ，即有确定的位置上的值一直是0，其余位置一直不是0，所以 $P^{2n+1}$ 型的矩阵都与 $P^3$ 有相同形状，从而对角元都是0。综上，概率矩阵是有周期性的，并且周期为2。

习题19.5

证明可逆马尔可夫链一定是不可约的

我觉得这个命题是错的，下面是具体说明

假设马尔可夫链的转移概率矩阵为

$\begin{bmatrix} p_{11} & \cdots & p_{1n}\\ \vdots & &\vdots \\ p_{n1} & \cdots & p_{nn} \end{bmatrix}$

可以将其改造成如下形式的两个矩阵

$\begin{bmatrix} Q_1 \\ Q_2 \\ \vdots \\ Q_n \end{bmatrix}$

其中 $Q_i=diag(p_{i1},p_{i2},\cdots,p_{in})$ ， $i=1,2,\cdots,n$ ，还有

$\begin{bmatrix} H_1 \\ H_2 \\ \vdots \\ H_n \end{bmatrix}$

其中 $H_i$ 是第 $i$ 列为 $(p_{1i},p_{2i},\cdots,p_{ni})^T$ 的 $n$ 阶方阵，其余位置都是0，从而根据可逆性，则存在一个向量 $\pi=(\pi_1,\pi_2,\cdots,\pi_n)^T$ ，使得

$\begin{bmatrix} \pi_1 \\ \pi_2 \\ \vdots \\ \pi_n \end{bmatrix}= \begin{bmatrix} p_{11}\pi_1 \\ \vdots \\ p_{1n}\pi_n\\ \vdots \\ p_{n1}\pi_1 \\ \vdots\\ p_{nn}\pi_n \end{bmatrix}= \begin{bmatrix} p_{11}\pi_1 \\ \vdots \\ p_{n1}\pi_1\\ \vdots \\ p_{1n}\pi_n \\ \vdots\\ p_{nn}\pi_n \end{bmatrix}= H \begin{bmatrix} \pi_1 \\ \pi_2 \\ \vdots \\ \pi_n \end{bmatrix}$

因为 $H^TH=Q^tQ=I$ ，从而有

$Q^TH \begin{bmatrix} \pi_1 \\ \pi_2 \\ \vdots \\ \pi_n \end{bmatrix} = \begin{bmatrix} p_{11}^2 & p_{12}p_{21} & \cdots & p_{1n}p_{n1} \\ p_{21}p_{12} & p_{22}^2 &\cdots & p_{2n}p_{n2}\\ \vdots & \vdots & & \vdots\\ p_{n1}p_{1n} & p_{n2}p_{2n} & \cdots & p_{nn}^2 \end{bmatrix} \begin{bmatrix} \pi_1 \\ \pi_2 \\ \vdots \\ \pi_n \end{bmatrix} =\begin{bmatrix} \pi_1 \\ \pi_2 \\ \vdots \\ \pi_n \end{bmatrix}$

令矩阵 $M=Q^TH$ ，则M是实对称的，可以相似对角化成

$M=U^{-1}\Lambda U$

其中 $\Lambda$ 是一个对角矩阵，对角元为 $M$ 的特征值且至少有一个为1，又因为

$\Lambda U\pi=U\pi$

所以 $\Lambda=I$ ，即矩阵 $M$ 的所有特征值都为1。根据特征值的计算方法得
$|M-\lambda I|=(\lambda-1)^n$
考察一个简单的情况，当 $n = 2$ 时，有
$|M-\lambda I| =\lambda^2-(p_{11}^2+p_{22}^2)\lambda +(p_{11}^2p_{22}^2-p_{12}^2p_{21}^2)=\lambda^2-2\lambda+1$
从而有
$P=\begin{bmatrix} 1 & 0 \\ 0 & 1 \\ \end{bmatrix}$

显然它既是可逆的，又是可约的，是原命题的一个反例。

习题19.7

假设进行伯努利实验，后验概率为 $P(\theta |y)$ ，其中变量 $\in \{0,1\}$ 表示实验可能的结果，变量 $\theta$ 表示结果为1的概率。假设先验概率 $P(\theta)$ 遵循Beta分布 $B(\alpha, \beta)$ ，其中 $\alpha=1,\beta=1$ 。似然函数 $P(y|\theta)$ 遵循二项分布 $Bin(n,k,\theta)$ ，其中 $n = 10, k = 4$ ，即实验进行10次其中结果为1的次数为4。试用Metropolis-Hastings算法求后验概率分布 $P(\theta|y) \propto P(\theta)P(y|\theta)$ 的均值和方差。

$\because$ $P(\theta)= B(1,1) = 1$ ， $\theta \in (0,1)$ ， $Bin(10,4,\theta) = 210 \theta^4(1-\theta)^6$ ，

$\therefore$ 根据算法19.2，可以编写代码如下

import numpy as np
def accept(p):
    return lambda x,xp: min(1,p(xp)/p(x))

def p(x):
    return 210 * pow(x,4) * pow(1-x,6)

def main(m,n):
    alpha = accept(p)
    X = [0.5]
    for i in range(1,n+1):
        x = X[i-1]
        xp = np.random.uniform(0,1)
        u = np.random.uniform(0,1)
        if u <= alpha(x, xp):
            X.append(xp)
        else:
            X.append(x)
    stable = np.array(X[m:-1])
    return np.mean(stable), np.var(stable)

if __name__ == '__main__':
    fmn, var = main(1000,1500)
    print(str(fmn) + "\n" + str(var))

运行结果显示均值为 $0.4199566270481994$ ，方差为 $0.015727345334172083$

聪明勇敢的乔威同学

关注

21
点赞
踩
203

收藏

觉得还不错? 一键收藏
7
评论
【全网最全】《统计学习方法》习题答案

习题3.2利用例题3.2构造的kd树求出点x=(3,4.5)Tx=(3,4.5)^Tx=(3,4.5)T的最近邻点从根节点出发，因为x(1)<7x^{(1)}<7x(1)<7, 所以进入左孩子一侧，又因为x(2)>4.5x^{(2)}>4.5x(2)>4.5，所以选定叶节点(4,7)(4,7)(4,7)作为“当前最近点”，开始递归。向上回退到(4,7)(4,7)(4,7)的父节点(5,4)(5,4)(5,4)，设其为当前节点，因为父节点离xxx更近一些，所以更
复制链接

扫一扫