周志华西瓜书《机器学习》习题提示——第11章

人工干智能

已于 2023-07-24 16:15:21 修改

阅读量315

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：机器学习人工智能

于 2023-07-23 17:11:09 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/131881554

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 25 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

习题提示

11.1：
直接用【西瓜书11.2节】的Relief过滤式特征选择方法。

11.2：
参见11.2 过滤式选择（“近墨者黑”，近多少？）第二部分“Relief是处理二分类问题，将其推广到处理多分类问题，即为Relief-F”的讨论。

11.3：
参见11.2 过滤式选择（“近墨者黑”，近多少？）中最后一段的描述。

11.4：
对LVW算法加一个总时长控制： $tt < TT$ （为与算法中的 $t, T$ 区别，这里用双写），即【西瓜书图11.1 】算法中：

增加输入 $TT$ ；第4至5句间插入初始化： $tt = 0$ ；第16至17句间插入： $tt = tt + 1; i f (tt == TT) re t u r n;$

11.5：
考虑二维情况，岭回归【西瓜书(11.6)】中的第一项为二次曲线C：
$\begin{align} f(w_1,w_2)=(y-(w_1x_1+w_2x_2))^2 \tag{1} \end{align}$
其黑塞矩阵为：
$\begin{align} \begin{pmatrix} \frac{{\partial}^2f }{{\partial}w_1^2}&\frac{{\partial}^2f }{{\partial}w_1{\partial}w_2}\\ \frac{{\partial}^2f }{{\partial}w_2{\partial}w_1}&\frac{{\partial}^2f }{{\partial}w_2^2} \end{pmatrix} =2 \begin{pmatrix} x_1^2&x_1x_2\\ x_1x_2&x_2^2 \end{pmatrix} \tag{2} \end{align}$
显然，它是半正定的，我们取正定，由凸函数的判定定理知，二次曲线C式(1)是凸的，即【西瓜书图11.2】所示合理，故C的等值线（簇）既会与 $L_1$ 的等值线相交于一点，也会与 $L_2$ 的等值线相交于一点，即交点不会在坐标轴上？？？，即得到的不是稀疏解。

11.6：
比较【西瓜书(11.6)】（岭回归）和【西瓜书(6.8)】（支持向量机的拉格朗日函数），有：
1、均有 $||\boldsymbol{w} ||^2$ 项，即 $L_2$ 的平方；
2、均有和式项；
3、和式项中一个是二次项，一个是一次项；
4、岭回归为二次曲线与圆相切，支持向量机的情形则是直线与圆相切。

11.7：
$||\boldsymbol{x} ||_0$ 为向量 $\boldsymbol{x}$ 中非零元素的个数（没有解析表达式）。采用它进行正则化，则：
$\begin{align} \mathop{\min}\limits_{\boldsymbol{x}}f(\boldsymbol{x})+\lambda ||\boldsymbol{x} ||_0 \tag{3} \end{align}$

它有两方面的自由度：
-其值 $k$ ；
-非零元素的位置。

若采用近端梯度下降的思路，则转化为：
$\begin{align} \boldsymbol{x}_{k+1}=\mathop{\arg\min}\limits_{\boldsymbol{x}}\,\frac{L}{2}||\boldsymbol{x}-\boldsymbol{z}||_2^2+\lambda ||\boldsymbol{x} ||_0 \tag{4} \end{align}$
其中， $L,\boldsymbol{z}$ 为已知， $\lambda$ 为参数，由于约束项 $||\boldsymbol{x} ||_0$ 不能解析表达，故式(4)求解问题，将其转化为 $||\boldsymbol{x} ||_1$ ，即得到【西瓜书(11.13)】。

11.8：
参见11.4 嵌入式选择与L1正则化（将特征选择嵌入到优化算法中，以LASSO算法为代表）中式(11.14)
的推导过程。

11.9：
有如下几点：
1、二者都是以 $L_1$ 替代 $L_0$ ；
2、二者在求解过程中均用到LASSO的PGD解法；
3、稀疏性使得【西瓜书(11.18)】中的 $\mathbf{E}_i$ 易于进行奇异值分解；
4、压缩感知需要符合K-RIP条件【西瓜书(11.21)】。

11.10：
在第10章讨论LLE时，就是一种分组（依近邻 $Q_i$ ），现在固定字典集（编码矩阵）： $\mathcal{D} =\{\boldsymbol{d}_j\}_{j=1}^{D}$ （ $\boldsymbol{d}_j$ 为列向量），对一组样本 $\{\boldsymbol{x}_i\},i\in \mathcal{G}$ ，求符合要求的编码集 $\{\boldsymbol{\alpha }^i\}$ ，从而使得 $\mathcal{A} =\{\boldsymbol{\alpha}_j\}_{j=1}^{|D|}$ 。
$\begin{align} \mathop{\min}\limits_{\mathcal{A} }Q(\mathcal{A} ,\mathcal{G} ,\mathcal{D} ) &=\frac{1}{2}\sum_{i\in \mathcal{G} }||\boldsymbol{x}_i-D\boldsymbol{\alpha}^i||_2^2+\lambda\sum_{j=1}^{|D|}||\boldsymbol{\alpha}_j||_p\notag\\ &=\frac{1}{2}\sum_{i\in \mathcal{G} }\bigg|\bigg|\boldsymbol{x}_i-\sum_{j=1}^{|D|}{\alpha}_j^i\boldsymbol{d}_j\bigg|\bigg|_2^2+\lambda\sum_{j=1}^{|D|}||\boldsymbol{\alpha}_j||_p \tag{5}\\ &\qquad s.t。 \forall j:[({\alpha}_j^i>0,\forall i)or({\alpha}_j^i=0,\forall i)]\notag \end{align}$
约束条件表示该组样本编码后，每一个特征具有捆绑关系，即要么全为0，要么全为正（负）。

采用变量交替（逐列更新）方法求解，即求 $\boldsymbol{\alpha}_r$ 时，将其余列视为常数。

为求 $\boldsymbol{\alpha}_r$ ，将其从 $Q(\mathcal{A} ,\mathcal{G} ,\mathcal{D} )$ 中分离出来：
$\begin{align} Q(\boldsymbol{\alpha}_r ) &=\frac{1}{2}\sum_{i\in \mathcal{G} }\bigg|\bigg|\boldsymbol{x}_i-\sum_{j\neq r}^{|D|}{\alpha}_j^i\boldsymbol{d}_j-{\alpha}_r^i\boldsymbol{d}_r\bigg|\bigg|_2^2+\lambda||\boldsymbol{\alpha}_r||_p+\lambda\sum_{j\neq r}^{|D|}||\boldsymbol{\alpha}_j||_p\notag\\ &=\sum_{i\in \mathcal{G} }\left(\sum_{j\neq r}^{|D|}{\alpha}_j^i{\alpha}_r^i\boldsymbol{d}^{\mathrm{T}}_j\boldsymbol{d}_r-{\alpha}_r^i\boldsymbol{x}^{\mathrm{T}}_i\boldsymbol{d}_r+\frac{1}{2}{{\alpha}_r^i}^2||\boldsymbol{d}_r||^2\right) +\lambda||\boldsymbol{\alpha}_r||_p\notag\\ &\quad +\text{（与$\boldsymbol{\alpha}_r$无关的项）} \tag{6} \end{align}$
$\begin{align} \frac{\partial Q(\boldsymbol{\alpha}_r )} {\partial {\alpha}_r^i} =-{\mu }_r^i+{\alpha}_r^i||\boldsymbol{d}_r||^2+\lambda\frac{\partial} {\partial {\alpha}_r^i}||\boldsymbol{\alpha}_r||_p \tag{7} \end{align}$
其中， ${\mu }_r^i=-\sum_{j\neq r}^{|D|}{\alpha}_j^i\boldsymbol{d}^{\mathrm{T}}_j\boldsymbol{d}_r+\boldsymbol{x}^{\mathrm{T}}_i\boldsymbol{d}_r$

情形1：取 $p = 1$
$\begin{align} \frac{\partial} {\partial {\alpha}_r^i}||\boldsymbol{\alpha}_r||_p &=\frac{\partial} {\partial {\alpha}_r^i}[| {\alpha}_r^i|+\text{（与${\alpha}_r^i$无关的项）}]\notag\\ &=1\ or\ 0\qquad \text{（因${\alpha}_r^i\geqslant 0$）} \tag{8} \end{align}$

本应找 $\frac{\partial Q(\boldsymbol{\alpha}_r )} {\partial {\alpha}_r^i}=0$ ，但不一定能找到，求其次：让其尽量接近于0，即考虑何时达到目标 $\mathop{\min}\limits_{{\alpha}_r^i}\bigg|\frac{\partial Q(\boldsymbol{\alpha}_r )} {\partial {\alpha}_r^i}\bigg|$ 。
$\begin{align} \frac{\partial Q(\boldsymbol{\alpha}_r )} {\partial {\alpha}_r^i} &=-{\mu }_r^i+{\alpha}_r^i||\boldsymbol{d}_r||^2+\lambda[1\ or\ 0]\notag\\ &={\alpha}_r^i||\boldsymbol{d}_r||^2+[(\lambda\ or\ 0)-{\mu }_r^i ] \tag{9} \end{align}$
(1)当 $[0-{\mu }_r^i ]>0$ 时，又 ${\alpha}_r^i\geqslant 0$ ，即当 ${\alpha}_r^i=0$ 时达到目标；\
(2)当 $[\lambda-{\mu }_r^i ]>0$ 时，即 ${\mu }_r^i<\lambda$ ，即当 ${\alpha}_r^i=0$ 时达到目标；\
(3)当 $[\lambda-{\mu }_r^i ]\leqslant 0$ 时，即 ${\mu }_r^i\geqslant \lambda$ ，即当
${\alpha}_r^i=\frac{{\mu}_r^i-\lambda }{||\boldsymbol{d}_r||^2}$ 时达到目标；

综合(1)(2)(3)，其中，(1)包含了 ${\mu}_r^i=0$ ，故(2)(3)中可限定 ${\mu}_r^i>0$ ，记 $({\mu}_r^i)^+=\max\{0,{\mu}_r^i\}$
$\begin{align} {\alpha}_r^i= \begin{cases} 0,\qquad (when ({\mu}_r^i)^+\leqslant \lambda)\\ \frac{({\mu}_r^i)^+-\lambda }{||\boldsymbol{d}_r||^2},\quad (otherwise)\\ \end{cases} \tag{10} \end{align}$

情形2：取 $p = 2$

虽然 ${\alpha}_r^i$ 不易从 $||\boldsymbol{\alpha}_r||_2$ 中分离，整体反而方便：
$\begin{align} \frac{\partial ||\boldsymbol{\alpha}_r||_2} {\partial \boldsymbol{\alpha}_r} =\frac{ \boldsymbol{\alpha}_r} { ||\boldsymbol{\alpha}_r||} \tag{11} \end{align}$
其中，省略了 $L_2$ 的标识（下同）。
$\begin{align} \frac{\partial Q} {\partial \boldsymbol{\alpha}_r} =||\boldsymbol{d}_r||^2\boldsymbol{\alpha}_r-\boldsymbol{\mu}_r+\lambda\frac{ \boldsymbol{\alpha}_r} { ||\boldsymbol{\alpha}_r||} \tag{12} \end{align}$
令 $\frac{\partial Q} {\partial \boldsymbol{\alpha}_r} =0$ ，则：
$\begin{align} \boldsymbol{\alpha}_r &=(||\boldsymbol{d}_r||^2+\frac{ \lambda} { ||\boldsymbol{\alpha}_r||})^{-1} \boldsymbol{\mu}_r\notag\\ &=S_r\boldsymbol{\mu}_r \tag{13} \end{align}$
其中：
$\begin{align} S_r &=(||\boldsymbol{d}_r||^2+\frac{ \lambda} { ||\boldsymbol{\alpha}_r||})^{-1} \notag\\ &=(||\boldsymbol{d}_r||^2+\frac{ \lambda} { ||S_r\boldsymbol{\mu}_r||})^{-1} \tag{14} \end{align}$
由式(13)(14)有：
$\begin{align} % S_r=\frac{1}{||\boldsymbol{d}_r||^2}\left(1-\frac{ \lambda} { ||\boldsymbol{\mu}_r||}\right)\\ \boldsymbol{\alpha}_r=\frac{1}{||\boldsymbol{d}_r||^2}\left(1-\frac{ \lambda} { ||\boldsymbol{\mu}_r||}\right)\boldsymbol{\mu}_r \tag{15} \end{align}$
因分组的捆绑限定，由式(10)的讨论知，只需考虑：
$\begin{align} \boldsymbol{\mu}_r^+=(({\mu}_r^1)^+\ ({\mu}_r^2)^+\ \cdots \ ({\mu}_r^{|D|})^+)^{\mathrm{T}} ({\mu}_r^i)^+=\max\{0,{\mu}_r^i\} \tag{16} \end{align}$
显然，只有 $||\boldsymbol{\mu}_r^+||>\lambda$ 才有 $\boldsymbol{\alpha}_r$ 全正。综上有：
$\begin{align} \boldsymbol{\alpha}_r= \begin{cases} \frac{1}{||\boldsymbol{d}_r||^2}\left(1-\frac{ \lambda} { ||\boldsymbol{\mu}_r||}\right)\boldsymbol{\mu}_r^+,\qquad &(when ||\boldsymbol{\mu}_r^+||>\lambda)\\ 0,\qquad &(otherwise) \end{cases} \tag{17} \end{align}$

上述讨论了一组样本 $\{\boldsymbol{x}_i\},i\in \mathcal{G}$ 的表达向量 $\{\boldsymbol{\alpha}^i\},i\in \mathcal{G}$ 具有这样的特点：它的分量要么全为0，要么全为正（或全为负），其转置 $\mathbf{A}^{\mathrm{T}}=(\boldsymbol{\alpha}_1\ \boldsymbol{\alpha}_2\ \cdots\ \boldsymbol{\alpha}_d )$ 按列具有该特点。

假定全体样本集分为 $n$ 组，第 $m$ 组下标为 $\mathcal{G}_m,\ (m=1,2,\cdots,n)$ ，第 $m$ 组的样本为 $\{\boldsymbol{x}_i\}_{i\in \mathcal{G}_m}$ ，则对每组使用式(5)求得 ${\alpha}_r^i$ （情形1： $p = 1$ 的解：式(10)）或 $\boldsymbol{\alpha}_r$ （情形2： $p = 2$ 的解：式(17)），即得到第 $m$ 组的样本通过字典编码后的表达为 $\mathbf{A}_m$ 。
将 $\{\mathbf{A}_m\}_{m=1}^n$ 拼接成： $\mathbf{A}=(\mathbf{A}_1\ \mathbf{A}_2\ \cdots\ \mathbf{A}_n)$ 。

现在切换到：已知上述分组 $\mathcal{G}_m,\ (m=1,2,\cdots,n)$ 及每组的编码 $\mathbf{A}_m$ ，求字典矩阵： $\mathbf{D}=(\boldsymbol{d}_1\ \boldsymbol{d}_2\ \cdots\ \boldsymbol{d}_{|D|} )$ 。

该问题的最小目标表达式为：
$\begin{align} Q(\mathbf{D} )=\sum_{m=1}^nQ(\mathcal{A}_m ,\mathcal{G}_m ,\mathcal{D} )+\gamma \sum_{k=1}^{|D|}||\boldsymbol{d}_k||_p \tag{18} \end{align}$
其中， $Q(\mathcal{A}_m ,\mathcal{G}_m ,\mathcal{D} )$ 为式(5)。