简介
第一个做对于弯曲文本端到端的检测识别的网络。检测的灵感来自于Text snake,识别是CNN加CTC。在检测和识别的中间使用了自己提出的一个特征转换器RoISlide。然后这个模型可以仅仅使用单词和单词的中心线的标注进行弱监督的训练。
检测
TextSnake使用的是园来表示文本,而这个方法使用长方形来表示。然后提取出的特征也是多尺度的叠加。检测分为起来那个模块,一个是中心线检测模块,一个是文本框回归模块。中心线检测模块训练的时候,还加入了了OHEM的方法。Local Box Regression模块回归文本的高度和角度。
特征转换RoISlide
RoISlide将全部的文字特征按照序列的一个接一个地转换为轴对称的特征。这个操作由两部分组成:首先对于按照规则将长方形的文本框排列在文本中心线上,然后使用LTN(Local Transformer Network)转换特征。LTN和STM不同,是局部特征的转换。
文本识别模块
就是类crnn的方法。