关于目标检测、分割后的语义推理算法（1）

最新推荐文章于 2023-12-05 00:34:49 发布

ruyingcai666666

最新推荐文章于 2023-12-05 00:34:49 发布

阅读量860

点赞数

文章标签：目标检测算法计算机视觉

本文链接：https://blog.csdn.net/ruyingcai666666/article/details/129351481

版权

[1]Zhang, L.T., J.J. Wang, Y.B. Wang, H. Sun, and X.B. Zhao, Automatic construction site hazard identification integrating construction scene graphs with BERT based domain knowledge. Automation in Construction, 2022. 142: p. 14, https://doi.org/10.1016/j.autcon.2022.104535.

文献【1】的方法，
在这里插入图片描述
两个部分组成：

场景图形生成
包括三个模块:1)实体检测，2)目标表示，3)关系表示

其中I为施工现场图像，B为检测到的实体的一组包围框，O为每个实体的对象标签，R为实体之间的交互。Pr(B|I)表示从站点图像I中进行实体检测的过程，图像I被调整为1024 * 1024像素后，由实体检测模块进行处理，从感兴趣的区域中提取特征。Pr(O|B, I)表示基于实体检测B的特征进行对象上下文化表示的过程。 Pr(R|B, O, I) 表示基于对象表示O和实体检测b的特征进行上下文化关系表示的过程。最后，利用上下文化对象和关系表示的两种不同的线性投影函数计算实体及其交互关系，并格式化为图形结构，对推理风险进行符合性检查。
实体检测：mask rcnn，对每个候选区域bi，输出特征向量fi和非上下文信息的目标标签的可能性li
目标表示：为构建场景中的每个实体生成上下文。施工场景的场景图反映了整个场景之间的交互关系，考虑所有被检测实体的特征是至关重要的。因此，本文采用Transformerobject网络对上下文化对象表示进行编码，如下图所示

图4 网络框架
Transformerobject网络采用注意机制从所有被检测到的实体中收集信息。如图所示，网络的输入由标签嵌入、包围盒嵌入、感兴趣区域特征三部分组成，输出上下文化的视觉信息X = {x1,x2，…，xn}和标签L

标签嵌入可以用softmax函数和一个预先训练好的词矩阵来表示，并在glove6B文本上进行初始化。

用两组不同的可训练矩阵A和偏差B将边界框信息bi转化为128维的嵌入向量。

最后的对象表示obj rep来自于实体检测、obj embed和bbox embed的特征fi与多头自注意机制的拼接。将特征向量fi与obj embed、bbox embed拼接成矩阵feature obj，经过3个不同的全连接层(LinearQ、K、V)处理得到矩阵Q、K、V，如下式所示。

注意机制如下图所示，通过计算矩阵Q、K、V之间的相似度得到特征向量z 。多头注意利用不同的权重矩阵W收集不同尺度下的特征向量zi 。然后将Z送入前馈网络，得到情境化对象表示的最终结果obj rep 。通过线性投影层和softmax函数，根据对象特征生成对象标签label obj 。

关系表示：采用Transformerrelation网络收集上下文化的关系表示进行关系检测。对于第i个和第j个对象之间的关系，关系表示采用由两个边界框并集组成的视觉特征eij vis，并集特征提取器来自实体检测。利用并集函数计算bi和bj的并集面积，得到像素位置bi, j如图4所示。
联合特征提取器从不同尺度bi, j(1…n)中提取bi, j的特征。现在我们需要得到关系预测的视觉特征，因此使用pooler函数将不同尺度的特征汇集到同一个尺度，并将它们连接在一起，得到更好的特征表示bij。
然后，将空间特征bij与两类的级联标签特征eij sem和视觉特征eij vis相加。随后，关系检测器使用线性投影层(felp)获得初始边缘特征eiin, j。

将初始边缘特征引入transformer_realtion网络，得到上下文边缘特征eij final (Eq. 14)。这种多关注机制可以帮助具有丰富全局信息的边从具有相似关系嵌入的边中学习。最后，通过一个softmax函数，我们得到边缘标签的分布。
基于C-Bert文本分类的危害推断
通过将可视事实与施工规范进行比较，可以识别施工现场的危险。此外，还应结合施工场景图模型生成的可视事实、施工规程等外部领域知识进行危害推断[21]。在本节中，BERT是一种广泛使用的自然语言处理技术，用于自动化危险推断。
危害推断的第一步是检索当前工况的规则，他的步骤包括基于实体和交互来识别施工场景图中的工作状态，然后利用关键字映射得到规则库中的规则。库中的规则用工况标签进行编码。第二步是将施工场景图与领域知识(检索到的规则)进行集成，进行危害推断。

在这里插入图片描述
在如下图所示的C-BERT模型中，施工场景图和规则被连接成以[CLS]开头，以[SEP]为分离，由CBERT模型编码的统一向量表示。C-BERT模型利用Transformer学习施工场景图与规范之间的关系，输出编码后的输出。最后一步是进行危害分类。编码输出是具有完全连接层的过程，pooler函数用于在标记[CLS]表示上生成用于分类的句子级别。使用softmax函数，可以识别危险类型。
在这里插入图片描述
C-BERT模型结构如图8所示，主要包括以下几个部分:1)关键字映射得到所需的规则，2)将施工场景图和规则标记化作为C-BERT模型的输入，3)将输入用C-BERT编码作为输出，4)对编码后的输出进行分类。本文采用的C-BERT模型[34]在维基百科英文文本上进行了预训练，并对其进行了微调，用于施工场景危险推断。
与生成的施工场景图进行关键字映射，根据施工场景图中的实体和交互，确定施工工况w。在工况w的情况下，对施工现场图G检索所需的规程S
标记，将施工场景图标记与相应的规范标记拼接成向量E(x1，…，xn,ya，…，ym)。

在这里插入图片描述
编码，C-BERT模型利用带有注意机制的变压器编码器对输入进行编码。编码器通过对每个子层的多头注意层和前馈网络层的叠加，可以获得词和句之间的依赖关系。对于输入向量E，每个子层的输出如式17所示。
在这里插入图片描述
在每一个子层中，首先将输入E通过矩阵变换(Eq. 18)变换为Q、K、V，再经过自注意函数处理(同Eq. 8)，然后将Q、K、V投影到h维，采用不同的线性变换矩阵W1，…，Wh。最终输出T(b1，…，bn,ba，…，bm) (Eq. 20)是h维注意机制结果的串联。然后前馈网络对输出T进行处理，计算非线性的特征。
在这里插入图片描述
分类，通过C-BERT模型，将向量E转换为编码向量Z。通过pooler函数和softmax函数，将编码向量Z转换为[CLS]表示形式S。S也是文本分类的结果，可以投影出危险类型。