大话文本检测经典模型：SegLink

最新推荐文章于 2021-07-15 17:16:00 发布

雪饼ai

最新推荐文章于 2021-07-15 17:16:00 发布

阅读量897

点赞数

分类专栏：人工智能文章标签：深度学习人工智能文字识别 SegLink OCR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rogerchen1983/article/details/93018198

版权

在自然场景中，例如灯箱广告牌、产品包装盒、商标等，要检测出其中的文字会面临着各种复杂的情况，例如角度倾斜、变形等情况，这时就需要使用基于深度学习的方法进行文字检测。在之前的文章中，介绍了基于卷积神经网络和循环神经网络的CTPN文本检测方法（见文章：大话文本检测经典模型 CTPN），该方法能在自然场景下较好地实现对文字的检测，但在CTPN中给出的文本检测效果是基于水平方向的，对于非水平的文本检测效果并不好，而在自然场景中，很多的文本信息都是带有一定的旋转角度的，例如用手机拍街道上的指示牌，如下图。如果文本检测的结果只有水平方向的，没有带角度信息，那么下图指示牌检测出来的就是红色框结果，而其实绿色框才是理想的检测目标，可见检测的结果误差太大。

那要怎样才能实现对各种角度的灵活检测呢？一个最直接的思路就是让模型不仅能学习和输出边框的位置（x, y, w, h），还要能输出一个文本框的旋转角度参数θ。本文要介绍的文本检测模型SegLink，便是采用了这个思路，也即SegLink检测模型能检测有旋转角度的文本，如下图：

一、SegLink模型的主要思想

SegLink模型的检测过程主要如下：

1、首先是检测生成一个一个的segment（切片），如上图黄色框，这些segment（切片）是文本行（或单词）的一部分，可能是一个字符，或者是一个单词，或者是几个字符

2、通过link（链接）将属于同一个文本行（或者单词）的segment（切片）连接起来，如上图绿色线条。link（链接）是在两个有重叠segment的中心点进行相连，如下图

3、通过合并算法，将这些segment࿰

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大话文本检测经典模型：SegLink

在自然场景中，例如灯箱广告牌、产品包装盒、商标等，要检测出其中的文字会面临着各种复杂的情况，例如角度倾斜、变形等情况，这时就需要使用基于深度学习的方法进行文字检测。在之前的文章中，介绍了基于卷积神经网络和循环神经网络的CTPN文本检测方法（见文章：大话文本检测经典模型 CTPN），该方法能在自然场景下较好地实现对文字的检测，但在CTPN中给出的文本检测效果是基于水平方向的，对于非水平的文本检测...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。