【摘要】 文本图像中包含两层信息:视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明)。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。
目录:
- 语言模型定义
- 基于深度学习的解决思路
- 语言模型的问题
- 未来展望
一、语言模型定义
- 1. 什么是语言模型?
图1
如图1所示,顾名思义,语言模型即根据当前语境的上下文推断当前句子的意思。具体的标准定义为:对于语言序列w1, w2, …wn,语言模型就是计算该序列的概率即P(w1, w2, …wn)。
- 为什么需要语言模型?
文本图像中包含两层信息:视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明)。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。
- 3. 统计语言模型(n-gram)
由链式法则可以得到:
(1)
可以通过采用极大似然估计来计算每个词出现的条件概率,但是对于任意长的自然语言语句,根据极大似然估计直接计算P(wn |w1, w2, …wn-1)显然不现实(计算量太大)。因此为了解决这个问题,n-gram语言模型引入