![](https://img-blog.csdnimg.cn/459665fde29f434c8097d980a8c6e581.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
论文解读
文章平均质量分 92
CV 相关论文解读
别偷我的猪_09
人间处处是繁华,你要全赴努力开花。
展开
-
论文解读|[AAAI2023]DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer
1. 图片输入到 CNN 主干 + Transformer 编码器进行提取特征,在最终的编码层生成多个。原创 2023-12-22 09:31:29 · 1099 阅读 · 0 评论 -
论文解读|[CVPR2021]Progressive Contour Regression for Arbitrary-Shape Scene Text Detection
现在的解决文本检测的方法都是自下而上的建模方式,都是基于像素级、小组件,因此会对噪声比较敏感,且依赖于复杂的启发式后处理操作。原创 2023-12-07 23:03:33 · 195 阅读 · 0 评论 -
论文解读 | [AAAI2020] 你所需要的是边界:走向任意形状的文本定位
对于一般的端到端OCR系统,处理具有任意形状的文本是不可避免的,因为曲线文本和其他类型的不规则文本在我们的现实世界中非常常见。传统的方法中,检测到的每个文本实例的边界框都是用矩形来表示,但矩形框在描述不规则文本的边界框时有很大的局限性,因为它包含或多或少的背景信息,这给文本识别阶段带来了困难。在本文中,检测的目的是预测一组边界点,其对于描述场景文本的各中妆容更灵活。图2(a)中,BPDN 可以预测每个水平建议的边界点,但受到各种方向和形状的文本实例的影响,包含了更多的背景噪声和更强的变形。原创 2023-02-22 20:05:01 · 406 阅读 · 0 评论 -
论文解读 | [CVPR2019] 基于自适应文本区域表示的任意形状场景文本检测
例如,水平文本使用2个点(左上/右下)表示文本区域,多方向文本用4个点表示文本区域,对于弯曲文本(CTW1500)使用14个点表示文本区域。虽然使用固定点数的方式能很好的适应对应的实例,但面对复杂的场景文本时仍然不能很好的表示文本区域。该分支输入的是文本提议的特征,输出的是每个文本区域边界上自适应成对点数量和坐标。如图2(a) 所示,文本区域边界上的角点可以用于文本区域的表示,但是这种方法对于点不是按方向排列的,可能很难学习表示,同时还可能需要人为矫正来实现精确的分割。文本标签的预测点的元组。原创 2023-02-21 17:39:11 · 635 阅读 · 0 评论 -
论文解读 | [CVPR2020] ContourNet:向精确的任意形状场景文本检测迈出进一步
首先通过自动学习文本区域上的一组边界点来生成文本建议,这些边界点指示文本实例的空间扩展。LOTM 以两个正交方向上(水平/垂直)对建议特征的局部纹理信息进行建模,并用两个不同热力图中的轮廓点表示文本区域,其中任一热力图仅对特定方向上的纹理特征做出响应。1、我们提出了一种新的FP抑制方法,通过在两个正交方向上对局部纹理信息进行建模,这是一种更直接的方法,与以前的方法相比,计算量更少。图2 红点是提案边界框预定义的一组点,绿点是细化点(最后真实边界框的点),皇上虚线表示回归的偏移量(红点-->绿点)原创 2023-02-17 11:40:44 · 593 阅读 · 0 评论 -
论文解读 | [ICCV2021] 用于任意形状文本检测的自适应边界建议网络
本模块主要的功能是通过文本框中的拓扑结构和序列上下文进行学习,并预测指向文本边界的逐顶点偏移,对于获得的粗边框进行迭代细化调整,以得到真正的文本框实例(类似完成了后处理的功能),这部分结构主要是在编码器部分引入了GCN和RNN,同时有一个分支使用一个1 x 1的卷积层形成了类似ResNet的残差结构,如图5所示,最后在译码器部分使用带有ReLU的三层1 x 1的卷积组成。为每个像素预测一个值,是方向场图对应的向量的值的归一化后的,即表示文本像素p到文本框T上找到最近的文本边界像素点。原创 2022-11-12 18:19:17 · 1497 阅读 · 0 评论