OCR系列论文学习笔记链接

最新推荐文章于 2023-11-19 07:00:00 发布

jiachen0212

最新推荐文章于 2023-11-19 07:00:00 发布

阅读量5.2k

点赞数 3

分类专栏： OCR 文章标签： OCR

本文链接：https://blog.csdn.net/jiachen0212/article/details/79498047

版权

OCR 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

良心博主整理的合集：ocr合集

1. Synthetic Data for Text Localisation in Natural Images CVPR2016 特点是使用synthetic data and FCRN. 实现了img内文本行的识别。

论文笔记链接：synthetic data for...论文学习、 synthetic data for...

感觉这篇paper的核心在于生成synthetic data 的算法部分，后续的FCRN没有很惊艳吧...

我自己写了一篇关于FCRN结构的学习笔记，欢迎大家指正：text spotting之FCRN

github: Synthetic Data for Text...

2. Detecting Oriented Text in Natural Images by Linking Segments CVPR2017 特点是改进了ssd，即一种新的SegLink结构，使得box+angle信息 and link 信息同时被学习。但只实现img内文本行的检测。

论文笔记链接：Detecting Oriented Text in Natural...论文学习、 Detecting Oriented Text in Natural...

github: Detecting Oriented Text in Natural...

3. Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks ICCV2017 特点是:用了 Text Proposal Network(TPN) + Region Feature Encoder(RFE) + Text Detection Network(TDN) + Text Recognition Network(TRN). 在TPN中使用 multiple scale sliding windows 并进行 concatenated。这种操作更有利于文本行的proposals检测(因为文本行，是长条长条的可能性比较大...)。RFE之前的Region of Interest pooling(RoI)利用1:2的 pooling size，再通过RFE中的LSTM使最末层输出fixed length representations。另外在TRN中使用：LSTMs with attention mechanism to decode the sequential features into words. 这也是一大创新点。。

论文笔记链接：Towards end-to-end...

4. WeText: Scene Text Detection underWeak Supervision ICCV2017 特点是使用弱监督和半监督思想去解决 labeled data 少的问题。就像之前许多 paper 用 synthetic data 去训model，也是因为 labeled data 太少了。

论文笔记链接：WeText Scene Text De...

5. Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework ICCV2017

论文笔记链接：Deep TextSpotter: An End-to-End...

代码链接：github

6. An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition PAMI2017 crnn结构 CNN+LSTM+CTC

论文笔记链接：crnn

代码链接：crnn

中文翻译链接：crnn

7. CTC ： Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks

论文笔记链接：CTC

8. Detecting Text in Natural Image with Connectionist Text Proposal Network ECCV2016 这就是传说中的CTPN结构了：使用固定宽度(16)的anchor去检测小框们，再利用文本线构造算法把小框们连接成文本行。

作者github链接：CTPN-caffe

tf版链接: CTPN-tf

论文笔记链接：CTPN1 、 CTPN2

知乎解说：知乎-ctpn

中文翻译链接：CTPN

9. PixelLink: Detecting Scene Text via Instance Segmentation AAAI2018 特点是把检测问题用分割的途径去处理解决。文章的总体思路也蛮轻简的：segment + 8邻域links 不过没有开源......

论文笔记链接：Pixellink

10. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection 2017arXiv 首先是RPN生成轴对称的 proposal boxes，然后使用 ROI pooling 进行又一次的特征提取，得到轴对称的bbox、倾斜bbox。另一亮点是使用倾斜非最大拟制，减少漏检。对于各个方向(包含竖直)文本均有不错的检测效果。

开源链接：tf-r2cnn

caffe版：caffe-r2cnn