场景文字检测概述

最新推荐文章于 2021-10-14 13:36:11 发布

泥石流中的一股清流

最新推荐文章于 2021-10-14 13:36:11 发布

阅读量546

点赞数

分类专栏： Tensorflow 文章标签：人工智能

本文链接：https://blog.csdn.net/qq_31261509/article/details/103877666

版权

本文介绍了场景文字检测的重要性及其与目标检测的相似性，重点关注了CTPN（文字提案网络）的原理和应用。CTPN在Faster R-CNN基础上结合LSTM，能有效检测横向分布的文字。训练和测试过程与Faster R-CNN类似，但标注需精细处理，以确保文字区域被正确捕捉。最后，通过连接text proposal形成文本框，完成文字检测任务。

摘要由CSDN通过智能技术生成

简介

文字场景检测一直是一个热门的研究热点，文字场景检测和目标检测十分类似，用到的原理也包含了目标检测里面的faster rcnn、ssd等。

卷积网络的空间不变性是一个非常重要的特性。正是由于卷积网络的空间不变性，我们可以利用其进行字符的位置定位，CTPN的主体网络结构使用到了卷积神经网络VGG以及LSTM来提取图片的特征值。能够检测出复杂场景下的横向分布的文字，它是在faster rcnn基础上开发的。以下是直接使用faster rcnn训练以及测试与使用ctpn训练测试结果展现，效果对比如下：
在这里插入图片描述
由左图可以看出，faster rcnn能够直接检测出文字区域，如果文字之间过近或者大小发生变化，检测结果将不会十分理想。而如果使用ctpn方式，ctpn首先会检测出不同的长方形区域，这些长方形区域正好能够覆盖文字区域。

CTPN网络结构

CTPN网络结构是被用来设计检测横向排列的文字。CTPN结构与Faster R-CNN基本类似，也可以自己去设置特征属性提取结构，不同于Faster R-CNN的是，CTPN使用了LSTM层结构。当然，如果直接介绍CTPN网络结构还是推荐首先看懂faster rcnn以及lstm的源码，这样会比较好理解CTPN各个层的作用以及对层内的影响，这样就能够自己去改进主体网络架构，主体架构可以参看一下：深度学习在医学领域的应用中的图

最低0.47元/天解锁文章

泥石流中的一股清流

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
场景文字检测概述

简介文字场景检测一直是一个热门的研究热点，文字场景检测和目标检测十分类似，用到的原理也包含了目标检测里面的faster rcnn、ssd等。卷积网络的空间不变性是一个非常重要的特性。正是由于卷积网络的空间不变性，我们可以利用其进行字符的位置定位，CTPN的主体网络结构使用到了卷积神经网络VGG以及LSTM来提取图片的特征值。能够检测出复杂场景下的横向分布的文字，它是在faster rcnn基础...
复制链接

扫一扫

专栏目录