循环神经网络的 Dropout

最新推荐文章于 2024-04-24 12:21:06 发布

Ftwhale

最新推荐文章于 2024-04-24 12:21:06 发布

阅读量843

点赞数

分类专栏：深度学习文章标签：神经网络深度学习人工智能

本文链接：https://blog.csdn.net/Ftwhale/article/details/105702598

版权

循环神经网络（RNNs）在序列任务中起着关键作用，但容易过拟合。Dropout作为一种正则化技术，常用于防止深度网络过拟合，但在RNNs中应用复杂。通常，Dropout只应用于RNN的输入和输出，而非循环层内部，以避免信号被噪声放大。在TensorFlow中，可以使用DropoutWrapper实现这一功能，通过input_keep_prob和output_keep_prob控制Dropout的概率。使用Dropout可以增强模型的鲁棒性，提高在序列数据上的表现。

摘要由CSDN通过智能技术生成

循环神经网络（RNNs）是基于序列的模型，对自然语言理解、语言生成、视频处理和其他许多任务至关重要。模型的输入是一个符号序列，在每个时间点一个简单的神经网络（RNN单元）应用于一个符号，以及此前时间点的网络输出。RNNs是强大的模型，在许多任务中表现出色，但会快速过拟合。RNN模型中缺少正则化使他难以处理小规模数据，为避免这种情况研究者经常使用提早停止，或者小规模的或未充分定义的模型。

Dropout是深度网络中常见的一种正则化技巧，在训练过程中网络单元随机的被隐藏/丢弃。但这种技巧在RNNs中一直未被成功应用。实证结果使很多人相信循环层（RNN单元之间的连接）中加入的噪音在长序列中会被放大，并淹没了信号。因此现存的研究认为这种技巧应仅用于RNN的输入和输出。但这种方式在研究中发现依然会导致过拟合。Dropout是一个同正则化完全不同的技术，与L1和L2范式正则化不同。dropout并不会修改代价函数而是修改深度网络本身。一个相关的早期使用这种技术的论文（（**ImageNetClassification with Deep Convolutional Neural Networks, by AlexKrizhevsky, Ilya Sutskever, and Geoffrey Hinton (2012).））中启发性的dropout解释是：这种技术减少了神经元之间复杂的共适性。因为一个神经元不能依赖其他特定的神经元。因此，不得不去学习随机子集神经元间的鲁棒性的有用连接。换句话说。想象我们的神经元作为要给预测的模型，dropout是一种方式可以确保我们的模型在丢失一个个体线索的情况下保持健壮的模型。在这种情况下，可以说他的作用和L1和L2范式正则化是相同的。都是来减少权重连接，然后增加网络模型在缺失个体连接信息情况下的鲁棒性。

Dropout 方法的使用最常出现于卷积神经网络中&#x