神经网络层结构的意义与维度诅咒

最新推荐文章于 2024-06-03 22:38:11 发布

极光喵

最新推荐文章于 2024-06-03 22:38:11 发布

阅读量825

点赞数 32

文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/qq_39297053/article/details/136445662

版权

注意：本文引用自专业人工智能社区Venus AI

神经网络的层级结构

之前的博文中讲解了神经网络算法和深度学习模型，读者们是否有疑问：为什么神经网络模型要有层级结构？深度学习模型为什么需要这么多的隐藏层？

答案很简单，这是算法分析数据的方式。先类比一个生活中的例子以便理解：当我们看到一张图片时，是否可以瞬间就获得其中的信息？其实不是，我们需要一定的思考时间，从多个角度去分析理解图片数据中表达的信息；这就如同神经网络中的多个层级结构一样，神经网络模型就是依靠这些层级结构从不同角度下提取原始数据信息的。

从数学角度来讲，深度学习模型每层的感知机数量都不同，这相当于对原始数据进行升、降维，在不同的维度空间下提取原始数据的特征。不同维度空间又是什么意思？举个例子，现在使用一个简单的线性分类器，试图完美地对猫和狗进行分类。首先可以从一个特征开始，如“圆眼”特征，分类结果如下图所示。

图片[1]-神经网络层结构的意义与维度诅咒-VenusAI — 猫和狗在一维特征空间下的分类结果

猫和狗在一维特征空间下的分类结果

由于猫和狗都是圆眼睛，此时无法获得完美的分类结果。因此，可能会决定增加其它特征，如“尖耳朵”特征，分类结果如下图。

图片[2]-神经网络层结构的意义与维度诅咒-VenusAI — 猫和狗在二维特征空间下的分类结果

猫和狗在二维特征空间下的分类结果

此时发现，猫和狗两个类型的数据分布渐渐离散，最后，增加第三个特征，例如“长鼻子”特征，得到一个三维特征空间，如下图。

图片[3]-神经网络层结构的意义与维度诅咒-VenusAI — 猫和狗在三维特征空间下的分类结果

猫和狗在三维特征空间下的分类结果

此时，模型已经可以很好地拟合出一个分类决策面对猫和狗两个类型进行分类了。那么很自然地联想一下：如果继续增加特征数量，将原始数据映射到更高维度的空间下是不是更有利于分类呢？

事实并非如此。注意当增加问题维数的时候, 训练样本的密度是呈指数下降的。假设 10 个训练实例涵盖了完整的一维特征空间，其宽度为 5 个单元间隔。因此，在一维情况下，样本密度为 10/5=2 样本/间隔。

在二维情况下，仍然有 10 个训练实例，现在它用 5×5=25 个单位正方形面积涵盖了二维的特征空间。因此，在二维情况下，样本密度为 10/25=0.4 样本/间隔。

最后, 在三维的情况下, 10 个样本覆盖了 5×5×5=125 个单位立方体特征空间体积。因此，在三维的情况下，样本密度为 10/125=0.08 样本/间隔。

如果不断增加特征，则特征空间的维数也在增长，并变得越来越稀疏。由于这种稀疏性，找到一个可分离的超平面会变得非常容易。如果将高维的分类结果映射到低维空间，与此方法相关联的严重问题就凸显出来。猫和狗在高纬度特征空间下的分类结果如下图所示。注意，因为高维特征空间难以在纸张上表示，下图是将高维空间的分类结果映射到二维空间下的展示。在这种情况下，模型训练的分类决策面可以非常轻易且完美地区分所有个体。有读者可能会说：对于训练数据做完美的区分，这岂不是很好吗？

图片[4]-神经网络层结构的意义与维度诅咒-VenusAI — 猫和狗在高纬度特征空间下的分类结果

猫和狗在高纬度特征空间下的分类结果

维度诅咒与过拟合

接着上一小节的问题：对于训练数据做完美的区分，这岂不是很好吗？

其实不然，因为训练数据是取自真实世界的，且任何一个训练集都不可能包含大千世界中的全部情况。就好比采集猫狗数据集时不可能拍摄到全世界的所有猫狗一样。此时对于这个训练数据集做完美的区分实际上会固化模型的思维，使其在真实世界中的泛化能力很差。这个现象在生活中其实就是“钻牛角尖”。举个例子：假设我们费尽心思想出了一百种特征来定义中国的牛，这种严格的定义可以很容易地将牛与其他物种区分开来。但是有一天，一只英国的奶牛漂洋过海游到了中国。由于这只外国牛只有90种特征符合中国对牛的定义，就不把它定义为牛了。这种做法显然是不合理的，原因是特征空间的维度太高，把这种现象称为“维度诅咒”，当问题的维数变得比较大时，分类器的性能降低。“维度诅咒”现象如下图所示。