『ML笔记』深入浅出字典学习1(Dictionary Learning)

最新推荐文章于 2025-02-25 17:48:22 发布

AI大模型前沿研究

最新推荐文章于 2025-02-25 17:48:22 发布

阅读量2.1w

点赞数 38

分类专栏： Machine Learning学习笔记文章标签： ML 机器学习字典学习稀疏编码

引用请附上作者博客链接https://zhangkaifang.blog.csdn.net/，谢谢理解！

本文链接：https://blog.csdn.net/abc13526222160/article/details/87936459

版权

Machine Learning学习笔记专栏收录该内容

70 篇文章

订阅专栏

本文探讨了字典学习和稀疏表示的基本概念及其在数据降维和特征学习中的应用，通过类比人类大脑的学习过程，阐述了字典学习如何实现数据的高效表示和计算加速。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、预备知识

稀疏向量：假设向量 $X=\left \{ x_{1},x_{2},...x_{n} \right \}$ 中的元素绝大部分为零元素，则称该向量是稀疏的。

稀疏表示：将原始信号表示为在适当选取的一组过完备基（字典D）上的稀疏线性组合，即信号的稀疏表示，其中 $d_{1},d_{2},...d_{p}$ 为字典中的原子。过完备基的意思是其中的原子数大大的超过原始信号的维数。

在表达式中： $X=D\alpha$ ，称为原始信号，为字典， $\alpha$ 为的稀疏表示。其实该表达式中间的=是理想化的情况，一般只是用 $D\alpha$ 逼近原始信号。这就类似于用神经网络或者卷积神经网络等深度学习的网络去模拟任意函数。只不过，在神经网络中，求的是权值的最最优值，而此处求得是在字典下的最优解 $\alpha$ 。因此，类似的求解 $\alpha$ 的过程变成了最优化 $D\alpha$ 和原始信号 $D\alpha$ 的过程。即信号的稀疏表示问题转化为求解稀疏正则优化问题。

二、字典学习以及稀疏表示的概要

字典学习（Dictionary Learning）和稀疏表示（Sparse Representation）在学术界的正式称谓应该是稀疏字典学习（Sparse Dictionary Learning）。该算法理论包含两个阶段：字典构建阶段（Dictionary Generate）和利用字典（稀疏的）表示样本阶段（Sparse coding with a precomputed dictionary）。这两个阶段（如下图）的每个阶段都有许多不同算法可供选择，每种算法的诞生时间都不一样，以至于稀疏字典学习的理论提出者已变得不可考。笔者尝试找了Wikipedia和Google Scolar都无法找到这一系列理论的最早发起人。

这里有两个问题是必须要预先解释清楚：

2.1、我们为什么需要字典学习？

回答这个问题实际上就是要回答“稀疏字典学习 ”中的字典是怎么来的。做一个比喻，句子是人类社会最神奇的东西，人类社会的一切知识无论是已经发现的还是没有发现的都必然要通过句子来表示出来（从某种意义上讲，公式也是句子）。这样说来，人类懂得的知识可要算是极为浩繁的。有人统计过人类每天新产生的知识可以装满一个2T（2048G）大小的硬盘。但无论有多少句子需要被书写，对于一个句子来说它最本质的特征是什么呢？毫无疑问，是一个个构成这个句子的单词（对英语来说）或字（对汉语来说）。所以我们可以很傲娇的这样认为，无论人类的知识有多么浩繁，也无论人类的科技有多么发达，一本长不过20厘米，宽不过15厘米，厚不过4厘米的新华字典或牛津字典足以表达人类从古至今乃至未来的所有知识，那些知识只不过是字典中字的排列组合罢了！直到这里，我相信相当一部分读者或许在心中已经明白了字典学习的第一个好处——它实质上是对于庞大数据集的一种降维表示。第二，正如同字是句子最质朴的特征一样，字典学习总是尝试学习蕴藏在样本背后最质朴的特征（假如样本最质朴的特征就是样本最好的特征），这两条原因同时也是这两年深度学习之风日盛的情况下字典学习也开始随之升温的原因。题外话：现代神经科学表明，哺乳动物大脑的初级视觉皮层干就事情就是图像的字典表示。

2.2、我们为什么需要稀疏表示？

回答这个问题毫无疑问就是要回答“稀疏字典学习”中稀疏两字的来历。不妨再举一个例子。相信大部分人都有这样一种感觉，当我们在解涉及到新的知识点的数学题时总有一种累心（累脑）的感觉。但是当我们通过艰苦卓绝的训练将新的知识点牢牢掌握时，再解决与这个知识点相关的问题时就不觉得很累了。这是为什么呢？意大利罗马大学的Fabio Babiloni教授曾经做过一项实验，他们让新飞行员驾驶一架飞机并采集了他们驾驶状态下的脑电，同时又让老飞行员驾驶飞机并也采集了他们驾驶状态下的脑电。如下图所示：

随后Fabio教授计算出了两类飞行员的大脑的活跃状态，如下图：

左图是新飞行员（不熟练的飞行员）的大脑。图中黄色的部分，是被认为活跃的脑区。右图是老飞行员（熟练的飞行员）的大脑，黄色区域相比左边的图有明显的减少。换言之，针对某一特定任务（这里是飞行），熟练者的大脑可以调动尽可能少的脑区消耗尽可能少的能量进行同样有效的计算（所以熟悉知识点的你，大脑不会再容易觉得累了），并且由于调动的脑区很少，大脑计算速度也会变快，这就是我们称熟练者为熟练者的原理所在。站在我们所要理解的稀疏字典学习的角度上来讲就是大脑学会了知识的稀疏表示。

ML笔记：字典学习2（Dictionary Learning）稀疏表示的本质：用尽可能少的资源表示尽可能多的知识，这种表示还能带来一个附加的好处，即计算速度快。

在懂得“字典”和“稀疏”各自的那点事儿以后，我们还要再讲讲稀疏和字典共同的那点儿事。或许在大脑中“字典”和“稀疏”是两个不怎么想干的阶段，毕竟“字典”涉及初级视觉皮层，而“稀疏”涉及前额叶皮层。但是在计算机中，“字典”和“稀疏”却是一堆孪生兄弟。在学习样本字典之初的时候，稀疏条件就已经被加入了。我们希望字典里的字可以尽能的少，但是却可以尽可能的表示最多的句子。这样的字典最容易满足稀疏条件。也就是说，这个“字典”是这个“稀疏”私人订制的。