一文带你探讨场景文本识别中的语言模型_语言模型和视觉模型区别-CSDN博客

本文链接：https://blog.csdn.net/ABCCloud/article/details/112008842

本文探讨了场景文本识别中语言模型的重要性，分析了n-gram、RNN、CNN和Transformer在语言模型中的应用及其优缺点。语言模型通过结合上下文信息，改善视觉纹理识别的准确性，但面临OC问题和计算复杂度挑战。未来研究将侧重于更强的语言模型和降低计算量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【摘要】文本图像中包含两层信息：视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘，时常会导致错误的文本识别结果（之后会详细说明）。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。

目录：

一、语言模型定义

图1
如图1所示，顾名思义，语言模型即根据当前语境的上下文推断当前句子的意思。具体的标准定义为：对于语言序列w1, w2, …wn，语言模型就是计算该序列的概率即P(w1, w2, …wn)。

文本图像中包含两层信息：视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘，时常会导致错误的文本识别结果（之后会详细说明）。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。

由链式法则可以得到:

（1）
可以通过采用极大似然估计来计算每个词出现的条件概率，但是对于任意长的自然语言语句，根据极大似然估计直接计算P(wn |w1, w2, …wn-1)显然不现实（计算量太大）。因此为了解决这个问题，n-gram语言模型引入