Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text

Paper : https://arxiv.org/abs/1912.09629v1

Code : https://tinyurl.com/sbdnet

SBD首先将四边形边框离散为几个关键边缘,其中包含所有可能的水平和垂直位置。为了解码准确的顶点位置,提出了一种简单而有效的匹配程序来重构四边形边界框。

基本思想是利用与标签序列无关的不变表示形式(例如,最小x,最小y,最大x,最大y,平均中心点和对角线的相交点)来反推边界框坐标。为了简化参数化,SBD首先查找所有包含顶点的离散水平和垂直边。 然后学习序列标记匹配类型以找出最佳拟合的四边形。 摆脱了训练目标的模糊性。

贡献

  1. 第一个根据四边形边界框的顺序解决文本检测歧义的方法,这对于实现良好的检测精度至关重要
  2. 方法的灵活性使其可以利用几个关键的改进,这些改进对于进一步提高准确性至关重要。 我们的方法在各种场景文本基准(包括ICDAR 2015 和MLT)上均达到了最先进的性能。 此外,我们的方法在最近的 ICDAR2019 Robust Reading Challenge on Reading Chinese Text on Signboard 中赢得了文本检测任务的冠军
  3. 方法经过有效的改进,也可以推广到航空图像中的船舶检测。 TIoU-Hmean的显着改进进一步证明了我们方法的鲁棒性。

Method

所提出的方法是基于 MaskR-CNN 的。

主要组成:Sequential-free Box Discretization(SBD) + Math-Type Learning(MTL) + Re-scoring and Post Processing(RPP)

在这里插入图片描述

无序列边框离散化 SBD

在这里插入图片描述

目的:SBD block 将四边形框离散为8个关键边缘(KEs)。这些关键边缘由有序无关点组成,即最小x( x m i n x_{min} xmin)和y( y m i n y_{min} ymin); 第二个最小的x( x 2 x_2 x2)和y( y 2 y_2 y2); 第二大x( x 3 x_3 x3)和y( y 3 y_3 y3); 以及最大x( x m a x x_{max} xmax)和y( y m a x y_{max} ymax)。 使用 x-KEs 和 y-KEs 分别表示 [ x m i n , x 2 , x 3 , x m a x ] [x_{min},x_2,x_3,x_{max}] [xminx2x3xmax] [ y m i n , y 2 , y 3 , y m a x ] [y_{min},y_2,y_3,y_{max}] [yminy2y3ymax]

原理: RoIAlign处理的 proposal 被送入SBD块,在该块中,特征图通过一系列卷积层; 然后再对这些特征进行2倍的上采样,并将来自反卷积的输出特征图 F o u t F_{out} Fout 限制为 M × M M×M M×M 大小。然后,使用两个具有4个通道的 1 × M 1×M 1×M M × 1 M×1 M×1 的卷积核来缩小水平和垂直特征分别为 x-KEs 和 y-KEs 。 最后,通过最小化 M M M 方向 SoftMax 输出上的交叉熵损失 L k e L_{ke} Lke 来训练SBD模型,其中,将真实值 KEs 的对应位置对应到每个输出通道。

由于RoI的限制,SBD不能直接学习 x-KEs 和 y-KEs。 原始的 Mask R-CNN 框架仅学习预测 RoI 区域内的目标对象,并且不能恢复 RoI 之外的对象部分丢失的像素。因此,为解决此问题,在训练时将 x-KEs 和 y-KEs 编码为 “half lines” 形式,x-KEs x i ∈ [ x m i n , x 2 , x 3 , x m a x ] x^i \in [x_{min},x_2,x_3,x_{max}] xi[xminx2x3xmax],y-KEs y i ∈ [ y m i n , y 2 , y 3 , y m a x ] y^i \in [y_{min},y_2,y_3,y_{max}] yi[yminy2y3ymax]
x h a l f i = x i + x m e a n 2 y h a l f i = y i + y m e a n 2 x_{half}^i = \frac{x^i + x_{mean}}{2} \\ y_{half}^i = \frac{y^i + y_{mean}}{2} xhalfi=2xi+xmeanyhalfi=2yi+ymean
其中, x m e a n , y m e a n x_{mean}, y_{mean} xmean,ymean 分别表示 x 轴和 y 轴的 gt 边界框的平均中心点的值。通过采用这样的训练策略,所提出的SBD块可以打破RoI的限制,即在大多数情况下,即使文本实例的边界位于RoIs之外,由于 x h a l f x_{half} xhalf y h a l f y_{half} yhalf 落入RoIs区域,文本实例的完整也可以得到保证。

与Mask R-CNN类似,检测器是在多任务方式下进行训练的。所以损失函数由四部分下组成:
L = L c l s + L b o x + L m a s k + L k e L = L_{cls} + L_{box} + L_{mask} + L_{ke} L=Lcls+Lbox+Lmask+Lke
L c l s , L b o x , L m a s k L_{cls}, L_{box}, L_{mask} Lcls,Lbox,Lmask 与 Mask RNN一样, L k e L_{ke} Lke 表示学习 关键边缘预测 任务的交叉熵损失。

匹配类型学习(MTL)

在这里插入图片描述

SBD只是学习了预测 8 条线的数值,但是忽视了怎么在 x-KEs 和 y-KEs 之间进行连接。所以提出了 MTL 从关键边重构四边形边界框。

目的: SBD输出得到 4 个 x-KEs 和 4 个 y-KEs,每个 x-KEs 应该匹配一个 y-KEs 构成一个角点,然后得到四个角点就是最终的边界框的顶点的预测。 构成的不同的角点会有不同的结果,总共有 A 4 4 = 24 A_4^4 = 24 A44=24 种可能。例如在下图中预测的匹配类型应该是 [ ( x m i n , y 3 ) , ( x 2 , y m a x ) , ( x m a x , y 2 ) , ( x 3 , y m i n ) ] [(x_{min}, y_3), (x_2, y_{max}), (x_{max}, y_2), (x_3, y_{min})] [(xmin,y3),(x2,ymax),(xmax,y2),(x3,ymin)] ,这就应该是最终的预测。

原理: 将SBD的两个生成 x-KEs 和 y-KEs 的特征图拼接在一起,通过 1x1 的卷积层后进行分类,24类分类任务。该方法中 MTL 头是通过最小化交叉熵损失来训练的。

在这里插入图片描述

重新评分和后处理(RPP)

检测器有时可以为错误正样本输出高置信度分数,为了抑制不合理的错误正样本,提出了 RPP。

在RPP中,首先基于8个KEs计算SBD得分 S S B D S_{SBD} SSBD
S S B D = 1 K ∑ k = 1 K max ⁡ v k f ( v k ) S_{SBD} = \frac{1}{K} \sum_{k=1}^K \max_{v^k} f(v^k) SSBD=K1k=1Kvkmaxf(vk)
其中 K = 8 K = 8 K=8 是 KEs 的数量。尽管在大多数情况下, S S B D S_{SBD} SSBD 的分布显示出一个单峰模式,但峰值仍显着低于1。因此,我们对每个关键边缘分数的4个相邻分数求和,以使其接近峰值,以避免置信度过低 。 假设 v k v_k vk 是第 k k k 个关键边的输出得分矢量,则函数 f ( v k ) f(v^k) f(vk) 定义为峰值 v i v_i vi 及其邻居的和:
v k = [ v 1 , v 2 , … , v i − 2 , v i − 1 , v i , v i + 1 , v i + 2 ⏟ f ( v k ) = ∑ p = m a x ( i − 2 , 1 ) P = m i n ( n , n + 2 ) ( v p ) , … , v n ] v^k = [v_1, v_2, \dots, \underbrace{v_{i-2}, v_{i-1}, v_i, v_{i+1}, v_{i+2}}_{f(v^k) = \sum_{p=max(i-2,1)}^{P=min(n,n+2)}(v_p)}, \dots,v_n] vk=[v1,v2,,f(vk)=p=max(i2,1)P=min(n,n+2)(vp) vi2,vi1,vi,vi+1,vi+2,,vn]
应当注意,如果峰值位于向量的头部或尾部,则相邻值的数量将小于4,因此在这种情况下,仅存在的邻居会被计数。 最后,可以通过以下方法获得精确的置信度:
s c o r e ( R ) = ( 2 − γ ) S b o x + γ S S B D 2 score(\mathfrak{R}) = \frac{(2-\gamma)S_{box} + \gamma S_{SBD}}{2} score(R)=2(2γ)Sbox+γSSBD
其中 0 ≤ γ ≤ 2 0 \leq \gamma \leq 2 0γ2 S b o x S_{box} Sbox 是bbox的原始 Softmax置信度。通过将 S S B D S_{SBD} SSBD 计入最终分数,它可以根据 8 个KEs的得分进行调整。

总结

SBD通过将点式预测分解为无序的关键边,解决了标签不一致的问题;使用 MLT 解码准确的顶点位置。

与一些基于分割的方法利用分割掩模直接重构边界框相比,MTL块可以学习几何约束,避免分割输出不准确造成的误报,这也减少了对分割任务的严重依赖性。

由于本文方法使用的四条横线和四条竖线的四个交点获得最终的边界框的顶点,所以只能检测旋转矩形,不能检测多边形以及任意形状的文本。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
### 回答1: 移动电子健康应用程序的未来:探索HTML5作为C的开发平台。 移动电子健康应用程序在过去几年中迅速发展,成为医疗行业的重要组成部分。随着移动设备普及率的提高,人们越来越多地使用智能手机和平板电脑来管理和监测健康状况。未来,这种趋势将继续增长,并且我们可以期待移动电子健康应用程序的需求将更加多样化和复杂化。 在开发移动电子健康应用程序时,HTML5是一种值得探索的开发平台,尤其是在C语言环境下。HTML5是一种现代化的标记语言,为开发者提供了许多新的功能和工具,可以用于构建各种移动应用程序。 首先,HTML5具有跨平台的优势。无论是在iOS、Android还是其他操作系统上,HTML5应用程序都可以进行开发和运行,这为开发者带来了更广泛的受众基础。它还不需要任何额外的插件或软件,使得应用程序更容易被用户接受和使用。 其次,HTML5提供了丰富的多媒体支持。移动电子健康应用程序可能需要展示各种类型的健康数据,如图表、图片和视频等。HTML5的多媒体功能可以帮助开发者在应用程序中轻松地集成这些元素,以便于用户更好地理解和管理自己的健康状况。 此外,HTML5还具有良好的互联互通性。它可以与云计算技术和其他网站服务进行集成,使用户能够轻松地访问和共享健康数据。这种互联互通性为医疗行业提供了更多的合作机会,促进了移动电子健康应用程序的进一步发展。 总之,HTML5作为移动电子健康应用程序的开发平台具有巨大的潜力。它跨平台、提供多媒体支持和良好的互联互通性,能够满足不断增长的移动电子健康应用程序需求。在未来,我们可以期待HTML5在C语言环境下的应用得到更多的开发和创新。 ### 回答2: 移动电子健康应用程序的未来:探索HTML5用于C语言的开发。 移动电子健康应用程序的未来十分看好,而HTML5为C语言的开发提供了许多新的机遇。HTML5是一种用于构建网页和Web应用程序的标准技术,它的灵活性和可移植性使其成为移动电子健康应用程序开发的有力工具。 首先,HTML5提供了更丰富的用户体验。通过使用HTML5的标准化元素和功能,开发人员可以创建更具吸引力和直观的移动电子健康应用程序。这意味着用户可以更轻松地浏览内容、交互和操作移动电子健康应用程序,从而提高了其使用的便利性。 其次,HTML5的跨平台特性使得开发和部署移动电子健康应用程序更加容易。传统上,C语言被广泛用于移动应用开发,而使用HTML5可以将移动电子健康应用程序轻松地跨平台到不同的设备和操作系统上。这样,开发人员可以更快速地将应用程序推向市场,提高了开发的效率和可扩展性。 此外,HTML5还提供了强大的图形和多媒体处理能力。移动电子健康应用程序通常需要处理复杂的图表、图像和视频等内容,而HTML5提供了丰富的图形和多媒体功能,使开发人员能够更直观地展示和处理这些数据。这对移动电子健康应用程序的可视化和数据分析非常重要。 然而,HTML5也存在一些挑战。与传统的原生应用程序相比,HTML5应用程序可能性能略逊一筹。此外,开发过程中需要考虑设备的兼容性和安全性等问题,以确保移动电子健康应用程序的可靠性和安全性。 总体来说,随着移动电子健康应用程序市场的不断增长和HTML5技术的发展,HTML5用于C语言的开发在未来将发挥重要作用。开发人员可以利用HTML5的灵活性、可移植性和丰富的功能,创建更具吸引力和易用性的移动电子健康应用程序,从而为用户提供更好的健康管理体验。 ### 回答3: 移动电子健康应用程序的未来:探索HTML5用于C 移动电子健康应用程序开发一直是关注的热点,随着技术的不断进步和人们对健康的关注度增加,我们可以预见未来的发展方向。HTML5是一种流行的开发技术,已广泛应用于Web应用程序开发中。那么,将HTML5与C语言结合,是移动电子健康应用程序开发领域的一大趋势。 首先,HTML5具有跨平台的特点。移动电子健康应用程序在不同的操作系统和设备上运行,兼容性是一个重要的问题。HTML5可以跨平台运行,不受特定操作系统或设备的限制,使得开发人员可以更加便捷地创建应用程序。 其次,HTML5具有丰富的功能和交互性。移动电子健康应用程序需要展示各种健康数据、提供交互操作和界面,以及实时更新数据等功能。HTML5提供了多种元素和API,开发人员可以根据需求自由定制用户界面,并实现与用户的交互操作。此外,HTML5还支持多媒体和实时通信,可以提供更丰富的用户体验。 再次,HTML5支持离线应用程序。对于移动电子健康应用程序来说,有时在没有网络连接的情况下,用户仍然希望能够使用一些功能和数据。HTML5提供了离线存储和缓存功能,可以将应用程序的核心功能和数据缓存到本地,使得用户在离线情况下仍然能够访问和使用一部分功能。 最后,HTML5具有不断更新和发展的潜力。随着技术的进步,HTML5的功能将不断增强,开发人员可以充分利用这些新特性来提升移动电子健康应用程序的性能和体验。 综上所述,HTML5与C语言结合是移动电子健康应用程序开发的未来趋势。通过使用HTML5,开发人员可以实现跨平台、丰富功能、离线支持等优势,提供更好的用户体验和便捷的开发方式,推动移动电子健康应用程序的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CharlesWu123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值