Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

最新推荐文章于 2024-05-25 10:02:28 发布

_不许人间见白头_

最新推荐文章于 2024-05-25 10:02:28 发布

阅读量600

点赞数

文章标签：深度学习机器学习 python 人工智能计算机视觉

本文链接：https://blog.csdn.net/m0_46434334/article/details/116672880

版权

Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

一,Overview

二，文本组件预测：

①首先每个文本组件D与一组几何属性相关联，即D=（x, y, h, w, cosθ, sinθ)，其中x和y表示文本框的坐标轴，w和h表示文本组件的高度和宽度。 cosθ和sinθ表示的是文本组件的方向。如图所示：

②文本中心区域（TCR):通过缩小文本区域获得（TR），首先，计算文本中心线，然后，缩小文本中心线两端0.5w像素点，使得网络能够容易地分离相邻的文本实例和减少nms（非极大值抑制）的计算。最后扩大中心线0.3h。

③在提取共享特征后，应用两个卷积层预测文本组件的属性为:

CR = conv1x1(conv3x3(F share))

在这里 CR∈R hxwx8 其中四个通道是TR/TCR分类逻辑（Classification logits）四个通道是 h1 ,h2,cosθ, sinθ的回归逻辑（regression logits)

Architecture of shared convolutions（使用的是VGG-16+FPN 骨架）

④检测损失(detection loss):文本组件预测损失由两个部分组成，分别是回归损失（regression loss）和分类损失（classification loss）可以被计算为：

其中分类损失又可以被计算为：

这里 Ltr 表示的是文本区域损失，Ltcrp 只计算文本区域内的像素点，Ltcrn 计算文本区域外的像素点。Ltcrn 被用来抑制文本中心区域背景噪声。在本文的实验中，权重λ1 和λ2被各自设置为1.0 和0.5.

由于non-TCR region 没有高度和宽度属性，我们只计算TCR region 的回归损失：

hki sinθ 和 cosθ 是 ground-truth value

hki_ sinθ _ 和cosθ_是predicted value

Ω 表示在TCR中正样本的数据集

h是文本组件的真实高度

超参数β 被设置为1

三，生成局部图

①通过修改《Linkage Based Face Clustering via Graph Convolution Network》中 IPS(Instance Pivot Subgraphs) 来产生局部图，本文中使用中轴节点的两跳作为局部图的节点。中轴节点的一跳由最近的8个节点组成，二跳由最近的4个节点组成。

考虑把节点之间的欧式相似性Es来执行knn操作。

D(p, vi) 是节点p和vi 之间的L2距离

Hm，Wm 分别为图像的高度和宽度

similarity_e = np.array(EuclideanDistances(ctr_xy, ctr_xy), dtype=np.float) / img_size
knn_graph = np.argsort(similarity_matrix, axis=1)[:, :]

为了避免在训练中由许多相同的图引起的简单样本梯度积累:

Gp 和Gq 是两个局部图，中轴节点p和q都是同一个文本实例中，Gp ∩ Gq 是中轴节点一跳的交集，Gp ∪Gp 是中轴节点一跳的并集。在实验中，我们设置ζ为0.75

②节点特征提取：由两个部分组成，第一个部分是 RROI特征** 。第二个部分是几何特征。

RROI特征提取的过程：我们结合feature maps Fn 把文本组件输入到RRoI-Align 层，然后获得一个1x3x4xCr 特征块。

RROI-Align层，结合了ROI-Align 和 RROI的优点来提取输入文本组件的特征块

文本组件几何特征的提取过程:文本的几何属性通过在《Attention is all you need》和《learning region features for object detection》两篇论文中的方法被嵌入到高维空间中。嵌入是通过将不同波长的正弦和余弦函数应用于标量z来实现的。


  pos_feat = self.PositionalEncoding(geo_map, self.pst_dim)
  pos_feat = torch.from_numpy(pos_feat).cuda().float()  # shape=(600,120)
  roi_feat = self.NodePooling(feats[bind].unsqueeze(0), roi_map)
  roi_feat = roi_feat.view(roi_feat.shape[0], -1) #shape=(600,480)
  node_feat = torch.cat((roi_feat, pos_feat), dim=-1) #shape=(600.600)

③节点特征归一化：

通过减去中轴节点的特征来归一化节点的特征，它将中轴节点信息编码到局部图的特征中，使得关系推理网络易于学习中轴节点与其邻居节点之间的连接关系。

 feat = feat_map[torch.tensor(ips, dtype=torch.long)] - center_feat

④邻接矩阵的产生：



 for node in ips:
      neighbors = knn_graph[node, 1:self.active_connection + 1]
      for n in neighbors:
           if n in ips:
                 A[unique_nodes_map[node], unique_nodes_map[n]] = 1
                 A[unique_nodes_map[n], unique_nodes_map[node]] = 1

⑤Graph Convolution: