无敌了！LSTM+CNN简直太高性能了！论文创新点来了！值得收藏！

最新推荐文章于 2025-04-24 17:42:27 发布

沃恩智慧

最新推荐文章于 2025-04-24 17:42:27 发布

阅读量1.2k

点赞数 3

文章标签： lstm cnn 人工智能

本文链接：https://blog.csdn.net/m0_73122726/article/details/142379971

版权

长短时记忆网络（LSTM）作为当前最流行的RNN，能成功解决原始循环神经网络的缺陷，运用于语音识别、图片描述、自然语言处理等许多领域。

将卷积神经网络（CNN）的特征提取能力与长短期记忆网络（LSTM）的时序建模能力相结合，能够显著提升模型在时序数据处理、图像处理和视频分析等任务中的表现。

因此，【LSTM+CNN】技术在行为识别、视频分类、医疗诊断等多个领域展示了其潜力和有效性，其创新的方法和良好的表现使其成为研究的热点之一。

为了帮助大家寻找发文的创新点，本文总结了20篇最近两年内【LSTM+CNN】论文研究成果，这些论文的文章、来源以及论文的代码都整理好了，有需要的同学赶快扫码领取！

需要的同学添加公众号【沃的顶会】回复 LS20 即可全部领取

自动语音识别（ASR）端到端深度学习模型

Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet

文章解析：

这篇文章介绍了一种用于尼泊尔语自动语音识别（ASR）的端到端深度学习模型。该模型通过训练和测试OpenSLR数据集，将尼泊尔语的语音转换成文本。通过有效结合不同的神经网络组件，实现了较低的字符错误率。

在数据预处理阶段，剪除了音频数据两端的静音间隙，以实现更统一的音频帧与相应文本的映射。模型使用梅尔频率倒谱系数（MFCCs）作为音频特征输入。

创新点：

1.研究中尝试了多种神经网络结构，包括不同变体的LSTM、GRU、CNN和ResNet。结果表明，将双向长短期记忆网络（BiLSTM）与一维CNN和ResNet结合的模型在该数据集上表现最佳。该模型在训练期间使用连接主义时序分类（CTC）函数进行损失计算，并使用CTC束搜索解码预测尼泊尔文本的最可能字符序列。在测试数据集上，该模型达到了17.06%的字符错误率（CER）。

2.数据采集和预处理步骤：去除数字实例、剪切静音间隙、使用MFCCs作为特征提取技术。MFCCs能够基于功率谱生成特征向量，是尼泊尔语ASR领域中一个强大的特征提取技术。

实验方法：

1.模型中使用ResNet、1D-CNN、RNN（特别是LSTM和GRU）以及CTC损失函数为机器学习组件。

ResNet通过引入残差学习框架解决深度神经网络的退化问题。1D-CNN用于提取局部化特征，而RNN变体则适用于处理序列数据。CTC损失函数允许模型在训练期间处理输入音频和输出文本之间的未知对齐。

2.使用BiRNN来提高预测的准确性，并引入dropout技术以避免过拟合。

3.实验设置：使用OpenSLR数据集的训练过程，包括数据集划分、音频采样、特征提取和优化器设置。

训练过程使用了Adam优化器，并且模型在NVIDIA Tesla T4 GPU上进行了多达58个周期的训练。

实验结果：

1.实验结果展示了不同模型在测试数据集上的CER，并讨论了模型性能。最终，结合1D-CNN、ResNet和BiLSTM的模型在未见过的测试数据集上实现了最低的CER，达到了82.94%的字符准确率。

2.结论：ResNet结合1D-CNN和BiLSTM的模型取得了最佳结果，并克服了CTC损失值早期饱和的限制。有效的数据清洗过程改善了音频帧与对应字符之间的对齐。

需要的同学添加公众号【沃的顶会】回复 LS20 即可全部领取

手机识别任务中的原始波形声学模型