Recurrent neural network based language model翻译（部分）

最新推荐文章于 2024-08-16 07:22:18 发布

---Lavender---

最新推荐文章于 2024-08-16 07:22:18 发布

阅读量2.3k

点赞数

分类专栏： RNN 文章标签： TensorFlow 机器学习 RNN

本文链接：https://blog.csdn.net/Tenderzhe/article/details/77566246

版权

摘要

一种新的带有语音识别功能的循环神经网络语言模型出现了。结果表明，与最先进的退避语言模型相比，通过使用几种RNN语言模型的混合，可能能够减少百分之五十的困惑度。语音识别实验表明当与训练同样大小数据的模型相比时，在华尔街日报任务中的单词错误率降低了18%，即使退避模型用更多数据量，在更难的NIST RT05任务中也大约降低了5%。我们提供充足的证据表明连接主义语言模型优于标准的n-gram模型，除了他们高计算量的复杂性。

1、介绍

序列数据预测在机器学习和人工智能中被认为是问题的关键。统计语言建模的目标是预测文本数据给定上下文中的下一个单词，因此当构建语言模型时我们正在处理序列数据预测问题。仍然有很多人试图获得更多的统计模型，这些模型涉及语言领域的具体方法，例如：假设自然语言句子可以用解析树描述，或者说我们需要考虑词语的形态，语法和语义。即使是最广泛使用的n-gram统计学一般模型，假设语言由序列组成：原子符号 - 单词 - 形成句子，句子结尾符号起着重要和非常特殊的作用。

如果在简单的n-gram模型上语言建模方面取得了显著的进展，这是值得怀疑的。如果我们能够通过模型更好地预测顺序数据的能力来度量这一进展，那么答案将是已经取得了相当大的进步——即通过引入缓存模型和基于类的模型。虽然已经提出了许多其他的技术，但是它们的效果几乎总是类似于缓存模型(描述长上下文信息)或基于类的模型(通过在相似的单词之间共享参数来改进短上下文的参数估计)。

如果我们在实践中应用他们的应用程序来衡量高级语言建模技术的成功，我们将不得不更加怀疑。用于现实世界的语音识别或机器翻译系统的语言模型是建立在大量的数据基础上的，而流行的观点认为，我们需要更多的数据。研究中的模型趋向于复杂的，通常只适合于有限的训练数据的