一. 文字识别
文字识别是指在确定检测框之后,识别出对应的文字,文字识别的方法有很多,包括:
1)基于分割后单个字符的分类;
2)基于序列的CNN方法,包括 基于STN矫正,CTC loss,Attention机制等策略;
3)基于one step的检测-识别方法,比如fots、Radical Analysis Network;
二. Attention Model
文字的有效定位对于检测是非常重要的,确定文字的有效区域有利于对文字进行准确切分,提高准确度,Attention Model是一种非常有效的策略,这项工作来自于google,实验效果非常不错。
论文:Attention-based Extraction of Structured Information from Street View Imagery
Github:https://github.com/tensorflow/models/tree/master/research/attention_ocr
Attention OCR结构示意: