周志华西瓜书《机器学习》习题提示——第3章_机器学习周志华3.8公式推导-CSDN博客

本文链接：https://blog.csdn.net/qiy_icbc/article/details/131864670

3.1：如下两种情况

（1）当 $\sum x_i=0$ 时，由【西瓜书(3.8)】知 $b$ 为常数，故不必考虑。

（2）当消除了 $b$ 时，不必单独考虑。

有两个办法消去方程（组）中的 $b$ ，一是减法消 $b$ ，所有样本都减去某个固定样本，即 $y_i-y_0=\boldsymbol{w}^\mathrm{T}(\boldsymbol{x}_i-\boldsymbol{x}_0)$ ，它是基于方程（组）等式“绝对相等”的情况，该方法常用于解方程组。二是增加一维消 $b$ ，见3.1 线性回归（线性模型对应于仿射函数）中的式(5)式(6)的推导，这种方法其实并没有真正消去 $b$ ，而是将它转化到 $\boldsymbol{w}$ 中，该方法常用于线性回归中，通过该转换就不必单独考虑 $b$ 了。

3.2：由凸函数的定义验证即可。凸函数的定义见【西瓜书p.54左侧】。

3.3：以程序实现（牛顿法）迭代式【西瓜书(3.29)】，其中用到【西瓜书(3.30)(3.31)】求导，还需要求矩阵的逆，另外，算法中别忘了加上停止条件。

3.4：算法为对率回归，将数据集分解为训练集和测试集，分解方法分别采用10折交叉验证法和留一法，求各自的平均错误率。

3.5：由【西瓜书(3.39)】归结到奇异值分解和求矩阵的逆，利用编程语言（如，python，R）的函数库中矩阵运算函数即可。

3.6：开放式讨论题，举两例：

（1）【西瓜书p.137】的核方法能将线性学习器拓展成非线性学习器；

（2）删除法：删除远离类中心的该类样本，如，设正例和反例的中心点分别为 $\boldsymbol{\mu}_0$ 和 $\boldsymbol{\mu}_1$ ，方差分别为 ${\sigma }^2_0$ 和 ${\sigma }^2_1$ ，则删除下式确定的样本 $\boldsymbol{x}$ ：
$\begin{align*} ||\boldsymbol{x}-\boldsymbol{\mu}_i||^2_2>\lambda {\sigma }^2_i \end{align*}$
其中， $i = 0, 1$ ，而 $\lambda$ 满足 $||\boldsymbol{\mu}_0-\boldsymbol{\mu}_1||^2_2>\lambda ({\sigma }_1+{\sigma }_2)^2$ 。

3.7：
本题的目的是构造【西瓜书图3.5】中类的编码矩阵。

最优化就需要对类的编码足够分散，理想状态：类间距离相等，且最大化。因此，需要具有对称性，显然长度为9的编码不具备对称性，而8（最接近于9的2的幂）位编码具有对称性。又因为，任一编码与其取反是成对出现（如，8个“ $+$ ”与8个“ $-$ ”），故可以只考虑“ $+$ ”不少于“ $-$ ”的编码（相反情况对应于取反），这时，编码中“ $-$ ”最少为0个，最多为4个，取这两个极端即得编码的海明距离最大为4。我们从8个“ $+$ ”开始，利用对称性进行分裂：
对类编码

图示：对类编码

图中树分裂时采取“左 $+$ 右 $-$ ”，如，C2的编码为 $(4 +, 4 -) = (+ + + + - - - -)$ ，其余类的编码类推，由此就得到了8位类编码矩阵，注意到这时任意两个类间的海明距离都为4，符合最优。

该编码矩阵还有如下特点：1、最左侧的一列全为 $+$ ，这一列对应的二分类器为恒 $+$ ；2、列与列之间的交换，并不影响海明距离以及对学习器的训练，因此，上述方法得到的编码矩阵是唯一的（除交换列生成新的编码矩阵外）。

然而，第一行全为 $+$ ，即在每个二分类器 $f_i$ 中C1都归于 $+$ 类，因此，有必要改变这种情况，简单的方法是：再增加一列，使其C1取 $-$ ，其余类全取 $+$ ，这样就得到编码长度为9的类编码矩阵。

上述方法可推广到一般：设有n个类别，则形成上述n层三角形分解（二叉树），与该图类似，从上至下每层的数字依次为： $2^{n-1},2^{n-2},\cdots,2^1,2^0$ ，即得到最优海明编码长度为 $2^{n-1}$ ，距离为 $2^{n-2}$ 的类编码矩阵。再从训练的角度补充一位（或多位）来避免“C1在所有二分类器中恒为 $+$ ”的情况。

3.8：提示：

我们将“概率相当”极端化为“概率相等”来思考。

【西瓜书图3.5】的“编码矩阵”中，若每格的出错概率相等，则在均衡划分下，预测出错的概率也相等，在非均衡划分下，预测出错的概率不相等。图中 $f_2,f_3，f_4,f_5$ 列是均衡划分（黑白格数相等）， $f_1$ 列为非均衡划分（黑多于白）。因此，设计“编码矩阵”的列时要尽量进行均匀划分。

3.9：提示

（1）OvR和MvM本身就打破了平衡性；

（2）将多类划分为二类时，多类中的类是平等的，不平衡在多次划分时产生组合，则不利影响会相互抵消。

3.10：提示

设有 $k$ 类，一个第 $i$ 类样本错分入第 $j$ 类时，产生的损失为 $c_{ij}>0,c_{ii}=0$ ，其中， $i,j=1,2,\cdots,k$ ，使用“再缩放”方法时，需要考虑各类的重要性程度（权重），设第 $i$ 类的权重为 $w_i$ ，则第 $i$ 类较第 $j$ 类的相对权重与 $c_{ij}$ 成正比，与 $c_{ji}$ 成反比，故可设为：
$\begin{align} \frac{w_i}{w_j}=\frac{c_{ij}}{c_{ji}},\qquad (1\leqslant i\neq j\leqslant k) \tag{1} \end{align}$
参考3.2 对数几率回归式(8)

显然，对换一下 $i$ 与 $j$ ，则等价于上式倒过来，故可限定 $1\leqslant i<j\leqslant k$ ，即共有 $\frac{k(k-1)}{2}$ 个等式。将上式改为线性方程组：
$\begin{align} {w_i}{c_{ji}}-{w_j}{c_{ij}}=0,\qquad (1\leqslant i<j\leqslant k) \tag{2} \end{align}$

设单位行向量 $\boldsymbol{\varepsilon }_i=(0,0,\cdots,0,1,0,\cdots,0)$ ，即 $k$ 维且第 $i$ 个分量为1，其余全为0的行向量。再设列向量 $\boldsymbol{w}=(w_1;w_2;\cdots;w_k)$ ，则方程组(2)变为：
$\begin{align} ({c_{ji}}\boldsymbol{\varepsilon }_i-{c_{ij}}\boldsymbol{\varepsilon }_j)\boldsymbol{w}=0,\qquad (1\leqslant i<j\leqslant k) \tag{3} \end{align}$

由此，若要各类的符合要求的权重 $\boldsymbol{w}$ 存在，则必须(3)有解。而(3)是 $k$ 个变量 $(w_1;w_2;\cdots;w_k)$ ， $\frac{k(k-1)}{2}$ 个方程组成的线性方程组。由线性方程组理论知，其有解的充要条件是：系数向量组 $({c_{ji}}\boldsymbol{\varepsilon }_i-{c_{ij}}\boldsymbol{\varepsilon }_j),1\leqslant i<j\leqslant k$ 的秩不大于变量数 $k$ 。这即为所求条件。

特别地，当 $k = 2$ 时， $\frac{k(k-1)}{2}=1$ ；当 $k = 3$ 时， $\frac{k(k-1)}{2}=3$ 。这两种情况（方程个数不超过变量个数）天然地满足该条件。

当 $k = 2$ 时，方程(3)变为：
$\begin{align} c_{21}w_1-c_{12}w_2=0 \tag{4} \end{align}$
即“再缩放”因子为：
$\begin{align} \frac{w_1}{w_2}=\frac{c_{12}}{c_{21}} \tag{5} \end{align}$
“再缩放”因子的意义参见3.2 对数几率回归式(7)。