前言:
在上一篇文章中,我们简单讲解了文本识别分类器之卷积神经网络(CNN)分类器,在这篇文章中,将从 文本识别分类器的结构,文本识别分类器的输入,以及 文本识别模块的设计 三个方面讲述。
1.文本识别分类器的结构
如上图所示,文本识别分类器由一个十层的卷积神经网络组成,其中包括一个输入层和一个输出层,中间八层分为四组,每一组由一个卷积层和一个Maxout激活函数层组成。Maxout激活函数有着如下的表达式:
其中Gk表示从输入集合G中顺序选取的k个元素,激活函数简单地取这k个元素函数值中的最大值。中间层的部分采用部分连接的方式,第一组卷积-激活层接收大小为32×32的图像,并采用大小为9的窗口卷积96个过滤器,激活函数的k值为2,因此其体积为24×2