![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本检测
文章平均质量分 91
CharlesWu123
分享平时积累与学习的内容,研究方向:OCR,图像,深度学习。
展开
-
Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text
SBD首先将四边形边框离散为几个关键边缘,其中包含所有可能的水平和垂直位置。为了解码准确的顶点位置,提出了一种简单而有效的匹配程序来重构四边形边界框。基本思想是利用与标签序列无关的不变表示形式(例如,最小x,最小y,最大x,最大y,平均中心点和对角线的相交点)来反推边界框坐标。为了简化参数化,SBD首先查找所有包含顶点的离散水平和垂直边。 然后学习序列标记匹配类型以找出最佳拟合的四边形。 摆脱了训练目标的模糊性。贡献第一个根据四边形边界框的顺序解决文本检测歧义的方法,这对于实现良好的检测精度至关重要原创 2021-01-05 15:18:33 · 1130 阅读 · 1 评论 -
DBNet:Real-time Scene Text Detection with Differentiable Binarization —— 论文阅读笔记
https://github.com/MhLiao/DBhttps://github.com/WenmuZhou/DBNet.pytorch速度很快!传统的基于分割的文本检测的后处理方法比较复杂,提出的差分二值化不仅可以简化后处理还可以增强文本检测的性能。在5个基准集上实现了比较好的表现比先前的方法更快,DB可以提供一个二值化图,简化了后处理使用轻量级的主干也可以表现好,在ResNet-18主干网络上增强了检测性能在推理阶段,可以移除DB,不影响性能Standard binariz.原创 2021-01-05 15:16:18 · 1481 阅读 · 0 评论 -
Learning to Predict More Accurate Text Instances for Scene Text Detection —— 论文阅读笔记
为检测弯曲文本,提出与起始顶点无关的坐标回归,提出文本实例精度损失作为辅助任务来细化预测坐标。基于回归+像素贡献提出了与起点无关的回归损失,而不是传统的回归损失,以优化文本实例的预测坐标,并且与基于分割的方法不同,可以直接优化多边形的坐标。引入文本实例精度损失来获得具有更大IoU的文本多边形,从而在不增加网络计算的情况下进一步提高了性能。提出了一种简单有效的基于像素的方法,该方法仅使用NMS后处理步骤。 该方法可用于无需附加标注的任意形状文本检测,并在Total-Text数据集上获得最新性能原创 2021-01-05 15:13:57 · 453 阅读 · 0 评论 -
Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes
通过语义分割可以直接从二维空间实现检测和识别。Spatial Attention Module(SAM)Mask TextSpotter 的识别模型对于处理二维空间中的常规文本和不规则文本更通用,并且同时考虑本地和全局文本信息会更有效不同于之前的方法只能处理水平或者旋转文本,本文方法可以处理任意形状的文本Mask TextSpotter 是第一个完全可端到端训练以进行文本发现的框架,它具有简单,平滑的训练方案,因此其检测模型和识别模型可充分受益于特征共享和联合优化。Architecture原创 2021-01-05 15:11:14 · 688 阅读 · 1 评论 -
PAN:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network —— 论文阅读笔记
有低计算成本的分割部分和可学习的后处理。分割分割部分由特征金字塔增强模块(FPEM)和特征融合模块(FFM)组成。 FPEM是可级联的U形模块,可以引入多级信息来指导更好的分割。 FFM可以将不同深度的FPEM提供的特征收集到最终特征中进行分割。 可学习的后处理是通过像素聚合(PA)实施的,该算法可以通过预测的相似度矢量精确地聚合文本像素。通过分割网络预测文本区域,内核和相似度向量。FPEM + FFM从预测的内核重建完整的文本实例。贡献提出了一个轻量级的分割部分,它由特征金字塔增强模块(F原创 2021-01-05 15:08:22 · 1313 阅读 · 0 评论 -
LOMO Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes —— 论文阅读笔记
LOMO由直接回归器(DR),迭代优化模块(IRM)和形状表示模块(SEM)组成。首先,DR分支生成四边形形式的文本建议框。 接下来,IRM基于提取的初步建议功能块,通过迭代细化逐步感知整个长文本。 最后,通过考虑文本实例的几何属性(包括文本区域,文本中心线和边界偏移),引入了SEM来重构不规则文本的更精确表示。贡献提出了一种迭代优化模块,可以提高长的场景文本检测的性能;引入实例级形状表达模块,以解决检测任意形状的场景文本的问题;具有迭代细化和形状表达模块的 LOMO 可以以端到端的方式进行训练原创 2021-01-05 15:04:33 · 941 阅读 · 0 评论 -
ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network 自适应 Bezier 曲线网络实时场景文本识别
基于 FPN 的 Anchor-Free 的文本检测模块,连接检测和识别的采样模块,轻量级的识别模块。使用参数化的 Bezier 曲线 自适应的拟合任意形状的文本 为了在图像中准确定位定向的和弯曲的场景文本,首次使用 Bezier 曲线引入了一种新的简洁的弯曲场景文本的参数化表示形式。 与标准边界框表示相比,它引入的计算开销可忽略不计。 提出了一种采样方法,也称为 BezierAlign,用于精确的特征对齐,因此识别分支可以自然地连接到整个结构。 通过共享主干特征,可以将识别分支设计原创 2020-06-24 16:58:36 · 3157 阅读 · 1 评论 -
文本检测综述(2017 ~ 2021)
论文题目模型方法时间检测文本类别备注CTPN回归ECCV 2016水平文本TextBoxes回归CVPR 2017水平文本SegLink回归CVPR 2017水平+弯曲文本EAST回归CVPR 2017水平+旋转文本回归IEEE 2018水平+旋转文本SLPR回归arXiv 2018水平+弯曲+不规则文本回归+分割CVPR 2018水平+旋转文本RRD回归CVPR 2018水平+旋转文本IncepText回归+分割。原创 2019-08-29 10:42:55 · 24741 阅读 · 14 评论 -
CRAFT: Character Region Awareness for Text Detection ---- 论文阅读笔记
基于字符区域感知的文本检测文提出了一种基于 **字符感知** 的文本检测方法。该方法是通过精确地定位每一个字符,然后再把检测到的字符连接成一个文本达到检测的目的。由于该方法只需要关注字符以及字符之间的距离,不需要关注整行文本,所以不需要很大的感受野,对于弯曲、变形或者极长的文本都适用。由于要精确的检测到每一个字符,所以对粘连字符(比如孟加拉语和阿拉伯语)的检测效果并不是很好。原创 2019-07-31 18:49:51 · 2871 阅读 · 0 评论 -
ACE:Aggregation Cross-Entropy for Sequence Recognition(聚合交叉熵) ---- 论文阅读笔记
聚合交叉熵(Agregation Cross-Entropy,ACE)论文链接:https://arxiv.org/abs/1904.08364论文翻译:https://blog.csdn.net/m0_38007695/article/details/96876075CTC和注意力机制问题:前向后向算法实现复杂,导致大量的计算消耗;很难应用与2D预测问题;注意机制依赖于其注意模...原创 2019-07-22 20:55:14 · 1280 阅读 · 0 评论 -
ACE:Aggregation Cross-Entropy for Sequence Recognition(聚合交叉熵) ---- 论文翻译
用于序列识别的聚合交叉熵摘要 在本文中,我们从全新的角度提出了一种新的聚合交叉熵(ACE)方法,用于序列识别。 ACE损失函数表现出对CTC和注意机制的竞争性能,实现快得多(因为它只涉及四个基本公式),更快的推理\反向传播(大约O(1)并行),更少的存储要求(没有参数且可忽略运行时内存),方便使用(用ACE代替CTC)。 此外,所提出的ACE损失函数具有两个值得注意的特性:(1)它可以通过将...翻译 2019-07-22 17:23:53 · 4179 阅读 · 0 评论 -
CRAFT: Character Region Awareness for Text Detection ---- 论文翻译
基于字符区域感知的文本检测论文地址:https://arxiv.org/abs/1904.01941摘要 最近出现了基于神经网络的场景文本检测方法,并且已经显示出可观的结果。之前的方法使用严格的单词级别的边界框训练,在表示任意形状的文本区域会有所限制。在本文中,我们提出了一种新的场景文本检测方法,通过探索每个字符和字符之间的亲和力来有效地检测文本区域。为了克服缺乏单个字符级注释的缺点,...翻译 2019-07-30 20:45:06 · 2395 阅读 · 3 评论 -
CTPN-自然文本场景检测代码阅读笔记
TensorFlow代码 https://github.com/eragonruan/text-detection-ctpn训练 main/train.py1. utils/prepare/split_label.py缩放图片resize image(长宽 最大1200,最小600)label处理2. 输入input_image 原图像 [[1, H, W, 3]]...原创 2019-03-20 21:08:29 · 1706 阅读 · 13 评论 -
EAST(An Efficient and Accurate Scene Text Detector)论文阅读笔记
文章目录@[toc]贡献方法1. Pipeline2.Network Design(网络设计)3.Label Generation(标签生成)4. Loss Functions(损失函数)5. Locality-Aware NMS(局部感知NMS)总结参考文章及代码论文中作者网络(e)与其他网络对比贡献只包含两个阶段:全卷积网络(FCN)和非极大值抑制(NMS)。FCN直接产生文本区域,...原创 2019-03-30 12:25:56 · 1488 阅读 · 0 评论 -
LSAE:Learning Shape-Aware Embedding for Scene Text Detection 场景文本检测----论文阅读笔记
论文题目:Learning Shape-Aware Embedding for Scene Text Detection香港中文大学和腾讯优图共同发表在2019CVPR论文地址:jiaya.me/papers/textdetection_cvpr19.pdf贡献提出了Shape-Aware Loss,可以很好的分割相邻的文本实例并且可以检测很大很长的文本实例(将图像像素映射到嵌入特征...原创 2019-07-09 15:52:55 · 4078 阅读 · 6 评论 -
Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation ----论文翻译
具有自适应文本区域表示的任意形状场景文本检测摘要: 场景文本检测在计算机视觉中引起了广泛的关注,因为它可以广泛应用于实时文本翻译,自动信息输入,盲人辅助,机器人传感等多种应用中。虽然水平文本和定向文本提出了很多方法,但是检测诸如弯曲文本的不规则形状文本仍然是一个具有挑战性的问题。为解决这一问题,我们提出了一种具有自适应文本区域表示的鲁棒场景文本检测方法。给定一张输入图像,首先使用一个文本RP...翻译 2019-07-14 13:58:00 · 850 阅读 · 7 评论 -
Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation ----论文阅读笔记
网络结构方法简介本文方法是一个两阶段的文本检测,第一阶段与Faster R-CNN类似,通过CNN + RPN + ROI 得到 text proposals;第二阶段就是对 text proposals进行细化,使预测的框更加准确。主干网络使用的是 SE-VGG16(添加了SE block的VGG16),实验证明SE Block可以提升性能。它的亮点主要是提出了自适应文本区域表示\co...原创 2019-07-14 14:06:44 · 1312 阅读 · 0 评论 -
PSENet:Shape Robust Text Detection with Progressive Scale Expansion Network ---- 论文翻译
渐进式扩展网络的形状鲁棒文本检测摘要场景文本检测已经取得了快速进展,特别是随着最近卷积神经网络的发展。但是,仍然存在两个阻碍算法进入工业应用的挑战。一方面,大多数现有技术都需要四边形边界框,这种边界框不能够准确地定位具有任意形状的文本。另一方面,彼此接近的两个文本实例可能导致错误检测,会把连个文本实例都包含进去。传统上,基于分割的方法可以缓解第一个问题,但通常无法解决第二个挑战。为了解决这两个...翻译 2019-07-18 10:40:06 · 1125 阅读 · 0 评论 -
PSENet:Shape Robust Text Detection with Progressive Scale Expansion Network ---- 论文阅读笔记
方法简介PSENet:主干网络ResNet,基本框架FPN。亮点: 提出了内核(把S1,S2,...,SnS_1,S_2,...,S_nS1,S2,...,Sn 中的文本实例的分割区域称为内核kernels)和渐进式扩展算法(Progressive Scale Expansion )。优势:是一个基于像素分割的方法,能够精确地定位任意形状的文本实例提出了渐进式扩展算法,即使两个...原创 2019-07-18 19:12:39 · 1358 阅读 · 0 评论 -
CTPN-自然文本场景检测学习笔记
文章目录出发点改进点(top-down)基本流程Detecting Text in Fine-scale(细粒度) ProposalsRecurrent Connectionist Text ProposalsSide-refinement(边缘细化)1. 文本行的构建:2. 边缘细化:模型输出与损失函数训练和实现细节参考博客以及代码地址CTPN网络结构图出发点之前的方法的缺点:自底向上...原创 2019-03-07 16:37:51 · 2791 阅读 · 2 评论