（《机器学习》完整版系列）第11章特征选择与稀疏学习——11.5 稀疏表示与字典学习（字典、词频、文档的特征）

人工干智能

已于 2023-03-31 10:54:13 修改

阅读量232

点赞数 1

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：学习算法

于 2023-03-17 12:27:55 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129617564

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 22 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

当我们把文档当作样本，词汇当作属性，属性的取值为该词汇在文档中占比（个数/总词汇数）——词频统计表
“词典”有对词的“释义”，取该词属于某一类的可能性（隶属度）作为其“释义”——词典矩阵
采用变量交替优化策略求解，用到矩阵的奇异值分解

稀疏表示与字典学习

通常我们用二维表格的形式表示数据集 $D$ ：

每行表示一个样本。
每列代表一个属性（特征）。

当我们把文档当作样本，词汇当作属性，属性的取值为该词汇在文档中占比（个数/总词汇数），则有表11.5。

显然，表11.5 中表体（词汇统计）会出现很多0，因为，在一个文档中出现的词汇在另一个文档中不一定出现，特别是不同类型的文档放在一起更是如此，故该表体是稀疏的。表11.5 中的表头{词汇1，词汇2，词汇3， $\cdots$ ，词汇d}可视“字典”或“词典”。

“词典”有对词的“释义”，取该词属于某一类的可能性（隶属度）作为其“释义”，现在我们将“词典”视为一本“体育词典"，在表11.5 中加上“释义”形成表 11.6 。

由表 11.6 可以得到文档的体育性质的评分，如，文档1属于体育类文章的评分为
$(1,0.2,0.6,\cdots ,0.3)(2\%,0,5\%,\cdots ,1.6\%)^\mathrm{T}$

现在我们在表 11.6 中添加文艺释义、新闻释义，等等，形成一本综合词典，表 11.6 变成了表 11.7 。
在这里插入图片描述

则文档1属于各类的评分为：

体育类得分： $(1,0.2,0.6,\cdots ,0.3)(2\%,0,5\%,\cdots ,1.6\%)^\mathrm{T}$

文艺类得分： $(0,0.7,0.1,\cdots ,1)(2\%,0,5\%,\cdots ,1.6\%)^\mathrm{T}$

$\cdots \cdots$

将其用一个式子表示，即为

$\begin{align*} \begin{pmatrix} \text{体育类得分}\\ \text{文艺类得分}\\ \vdots \end{pmatrix} = \begin{pmatrix} 1&0.2&0.6&\cdots &0.3\\ 0&0.7&0.1&\cdots &1\\ \vdots &\vdots&\vdots&\vdots&\vdots \end{pmatrix} \begin{pmatrix} 2\%\\ 0,5\%\\ \vdots \\ 1.6\% \end{pmatrix} \end{align*}$
将上述讨论总结为
$\begin{align} \boldsymbol{x}=\mathbf{B}\boldsymbol{\alpha } \tag{11.15} \end{align}$

若用于多份文档，加个文档编号下标即可。
$\begin{align} \boldsymbol{x}_i=\mathbf{B}\boldsymbol{\alpha }_i \tag{11.16} \end{align}$
其中， $\mathbf{B}$ 即为字典矩阵，它有 $k$ 列代表着有 $k$ 个词汇（ $k$ 即为词汇量），它有 $d$ 行，每行是一个主题（如，第一行为体育），即有 $d$ 个主题，值为各词汇对各主题的隶属度（如，排球对体育主题的隶属度为1）， $i$ 为文档编号， $\boldsymbol{x}_i$ 为列向量，分量对应为属于该行主题的得分（如，第一行为体育）， $\boldsymbol{\alpha}_i$ 为列向量，它为文档 $i$ 中各词汇的频度统计。

式(11.16)将文档 $i$ 的词频表达（ $\boldsymbol{\alpha}_i$ ）转换成了主题表达（ $\boldsymbol{x}_i$ ），转换后，通过比效 $\boldsymbol{x}_i$ 的分量就可以判断该文档是哪一类主题，如，体育和新闻主题得分高，就可知道该文档是一篇体育新闻。

观察式(11.16)， $\boldsymbol{x}_i$ 为 $d$ 维， $\boldsymbol{\alpha}_i$ 为 $k$ 维， $\ll k$ ，但 $\boldsymbol{\alpha}_i$ 为稀疏的，因此， $\boldsymbol{\alpha}_i$ 可以视为 $\boldsymbol{x}_i$ 的稀疏表达。由此，已知 $\boldsymbol{x}_i$ 求其稀疏表达，这时需要字典 $\mathbf{B}$ 。当不知道字典时，就需要进行字典学习，这时，可从【西瓜书式(11.15)】出发进行字典学习。

由于【西瓜书式(11.15)】中有两个变量（ $\mathbf{B}$ 和 $\boldsymbol{\alpha}_i$ ），故采用变量交替优化策略求解。

问题1：固定 $\mathbf{B}$ 求 $\boldsymbol{\alpha}_i\ (i=1,2,\cdots,m)$ ，其优化目标为
$\begin{align} \mathop{\min}\limits_{\boldsymbol{\alpha}_i}||\boldsymbol{x}_i-\mathbf{B}\boldsymbol{\alpha }_i ||_2^2+{\lambda}_i|| \boldsymbol{x}_i||_1 \tag{11.17} \end{align}$

问题2：固定 $\boldsymbol{\alpha}_i\ (i=1,2,\cdots,m)$ 求 $\mathbf{B}$ ，其优化目标为
$\begin{align} \mathop{\min}\limits_{\mathbf{B}}||\mathbf{X}-\mathbf{B}\mathbf{A} ||_F^2 \tag{11.18} \end{align}$
其中， $\mathbf{X}=(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m),\mathbf{A}=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_m)$ ，且已知 $\mathbf{X}$ 。

变量交替优化策略就是将原问题【西瓜书式(11.15)】的求解转化为交替地求解问题1和问题2，反复迭代直到某结束条件被满足。

问题1的求解可使用PGD【西瓜书式(11.8)】的方式求解，注意：需要求解 $m$ 次，每次得到一个 $\boldsymbol{\alpha}_i\ (i=1,2,\cdots,m)$ 。

问题2的求解采用KSVD对其逐列更新，它实际上也是采用变量交替优化策略。这里重点讲一下该方法。
设
$\begin{align} \mathbf{B}=(\boldsymbol{b}_1,\boldsymbol{b}_2,\cdots,\boldsymbol{b}_k) \tag{11.19} \end{align}$
其中， $\boldsymbol{b}_j$ 为列向量。这样，矩阵 $\mathbf{B}$ 视为 $k$ 个未知向量，采用变量交替优化策略：固定 $k - 1$ 个求其中一个向量 $\boldsymbol{b}_i$ 。从 $\boldsymbol{b}_1$ 到 $\boldsymbol{b}_k$ 逐个求一遍算作一轮，可以进行多轮迭代。

下面求 $\boldsymbol{b}_i$ ，将矩阵 $\mathbf{A}$ 视为行向量组成，即
$\begin{align} \mathbf{A}=(\boldsymbol{\alpha}^1;\boldsymbol{\alpha}^2;\cdots;\boldsymbol{\alpha}^k) \tag{11.20} \end{align}$
式(11.18)已将矩阵 $\mathbf{A}$ 视为列向量组成（下标表示），这里又视为行向量组成（上标表示），它们的关系体现在矩阵 $\mathbf{A}$ 的元素表示为 $(\mathbf{A})_{ij}={\alpha}^i_j$ 。

将式(11.19)、式(11.20)代入式(11.18)，有
$\begin{align} \big|\big|\mathbf{X}-\mathbf{B}\mathbf{A} \big|\big|_F^2 &=\big|\big|\mathbf{X}-\sum_{j=1}^k\boldsymbol{b}_j\boldsymbol{\alpha}^j\big|\big|_F^2\notag\\ &=\big|\big|(\mathbf{X}-\sum_{j\neq i}^k\boldsymbol{b}_j\boldsymbol{\alpha}^j)-\boldsymbol{b}_i\boldsymbol{\alpha}^i\big|\big|_F^2\notag\\ &=\big|\big|\mathbf{E}_i-\boldsymbol{b}_i\boldsymbol{\alpha}^i\big|\big|_F^2 \tag{11.21} \end{align}$
其中， $\mathbf{E}_i=\mathbf{X}-\sum_{j\neq i}^k\boldsymbol{b}_j\boldsymbol{\alpha}^j$ 为已知矩阵（由于上述的固定）。

优化目标式(11.18)变为
$\begin{align} \mathop{\min}\limits_{\boldsymbol{b}_i}\big|\big|\mathbf{E}_i-\boldsymbol{b}_i\boldsymbol{\alpha}^i\big|\big|_F^2 \tag{11.22} \end{align}$
求解式(11.22)归结为对 $\mathbf{E}_i$ 进行奇异值分解（参见【西瓜书附录式(A.34)】），为保证奇异值分解过程不影响在求解问题1时获得的 $\mathbf{A}$ 的稀疏性，我们对式(11.22)作特殊处理（“瘦身”）再求解：

（1）由 $\mathbf{A}$ 的稀疏性知 $\boldsymbol{\alpha}^i$ 中会有许多零元素，将行向量 $\boldsymbol{\alpha}^i$ 的零元素删除，得到 $(\boldsymbol{\alpha}^i)'$ 。

（2）矩阵 $\mathbf{E}_i$ 中保留与 $(\boldsymbol{\alpha}^i)'$ 对应的列。可这样操作：作二维表，以行向量 $\boldsymbol{\alpha}^i$ 作为表头，以矩阵 $\mathbf{E}_i$ 作为表体，删除 $\boldsymbol{\alpha}^i$ 零元素所在的列，则表头变为了 $(\boldsymbol{\alpha}^i)'$ 、表体变为了 $(\mathbf{E}_i)'$ 。

（3）优化目标式(11.22)变为
$\begin{align} \mathop{\min}\limits_{\boldsymbol{b}_i}\big|\big|(\mathbf{E}_i)'-\boldsymbol{b}_i(\boldsymbol{\alpha}^i)'\big|\big|_F^2 \tag{11.23} \end{align}$

（4）对式(11.23)加上“低秩”要求（需要指定超参数 $k$ ，缺省为 $\mathbf{A}$ 的秩），即为【西瓜书附录式(A.34)】，其中， $\mathbf{A}=(\mathbf{E}_i)',\tilde{\mathbf{A}} =\boldsymbol{b}_i(\boldsymbol{\alpha}^i)'$ 。

（5）采用奇异值分解方法得到 $\tilde{\mathbf{A}}$ 的最优解为【西瓜书附录式(A.35)】的 ${\mathbf{A}}_k$ 。

（6）从 $\boldsymbol{b}_i(\boldsymbol{\alpha}^i)'={\mathbf{A}}_k$ 中求出 $\boldsymbol{b}_i$ 即可。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：11.4 嵌入式选择与L1正则化（将特征选择嵌入到优化算法中，以LASSO算法为代表）
下一篇：11.6 压缩感知（RIP算法竟将要解的方程式视为约束条件）

人工干智能

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（《机器学习》完整版系列）第11章特征选择与稀疏学习——11.5 稀疏表示与字典学习（字典、词频、文档的特征）

当我们把文档当作样本，词汇当作属性，属性的取值为该词汇在文档中占比（个数/总词汇数）——词频统计表“词典”有对词的“释义”，取该词属于某一类的可能性（隶属度）作为其“释义”——词典矩阵采用变量交替优化策略求解，用到矩阵的奇异值分解
复制链接

扫一扫