TextFuseNet: Scene Text Detection with Richer Fused Features论文阅读

最新推荐文章于 2024-04-18 10:05:08 发布

giganticpower

最新推荐文章于 2024-04-18 10:05:08 发布

阅读量503

点赞数

文章标签：深度学习 pytorch 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/giganticpower/article/details/117468754

版权

**

TextFuseNet: Scene Text Detection with Richer Fused Features

**

利用更丰富的特征融合进行场景文本检测
代码：https://github.com/ying09/TextFuseNet

论文解析

- TextFuseNet: Scene Text Detection with Richer Fused Features
论文核心思想
- 论文培训及推理细节
- - 论文结果分析

论文核心思想

贡献一：
提出了一种新的框架——文本融合网络。
提出了两种流程

1、多级特征表示
提出从字符、单词和全局三个层次的特征表示来感知文本，通过将文本分解成单个字符来充分描述文本，同时仍然保持它们的一般语义。

2、多路径融合架构
文本融合网络使用多路径融合架构从不同的层次收集和融合文本的特征，该架构可以有效地对齐和融合不同的表示。

在这里插入图片描述

个人通俗理解：

第一个全局语义分割，形成一个二值图特征图
第二个就是包括了detection branch和mask branch两个部分
使用基于候选框的单字符检测以及单词的检测，通过RoIAlign融合第一个语义分割的二值图特征形成单词级分类以及字符级分类
在mask分支中又融合了全局语义分割的特征图生成新的二值图，再根据检测的单词或者字符的分类结果，对这个二值图像素点进行分类输出。

贡献二：
引入了弱监督模型进行单字符学习。
这个在2019年craft算法中已经提出了，就是利用具有单字符标注的数据集synthtext训练，在单词级标注的数据集上进行单字符检测，再学习相应的字符级特征，去适应算法的特征融合。

贡献三：
部分表现SOTA。

论文培训及推理细节

训练使用4GPUs，tesla v100 16G
测试使用1GPU，

同样使用synthtext进行预训练。预训练20个epochs，再在微调数据集上进行弱监督学习。
lr，优化器改变见论文。

推理部分：

根据论文给出的推理步骤，
它只拿了RPN生成前1k个建议通过软NMS挑选出的最终的目标区域，
重点在于
他只拿了单词级分类对应的mask分支输出。
等于字符级的检测，只是用来做特征融合。

论文结果分析

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
TextFuseNet: Scene Text Detection with Richer Fused Features论文阅读

**TextFuseNet: Scene Text Detection with Richer Fused Features**利用更丰富的特征融合进行场景文本检测代码：https://github.com/ying09/TextFuseNet论文解析TextFuseNet: Scene Text Detection with Richer Fused Features论文核心思想论文培训及推理细节论文结果分析论文核心思想贡献一：提出了一种新的框架——文本融合网络。提出了两种流程1、多级
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。