CGAN模型

最新推荐文章于 2024-08-27 15:17:04 发布

土豆小旋风

最新推荐文章于 2024-08-27 15:17:04 发布

阅读量140

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JFSPD/article/details/131669524

版权

该文提出了一种新的视觉实例识别方法，包括级联组合注意力(CGA)网络和实例级注意力损失函数(ILA)。CGA通过逐步推理区分图像中的实例，ILA则增强模型的监督能力，提高识别准确性。模型利用ResNet的特征融合，通过分组的CD注意力处理多模态信息，实现文本和图像实例的精确对应。

摘要由CSDN通过智能技术生成

摘要

如何快速又准确的将文本描述对应到它所指代的视觉实例上。

提出了两个网络：

（1）级联组合注意力（CGA）（2）实例级注意力损失函数（ILA)

CGA通过一步步的在整张图片上的推理，有效的感知不同实例之间的区别，从而识别所指物。

ILA进一步嵌入到每一次的CGA过程中，直接的监督注意力模块，提高了准确率。

CGA使用语言导向的注意力（CD）构造三个张量捕捉语言和像素点之间的关系。

为了充分感知子空间中的详细特征，我们将Collection-Difusion 引申为分组的转换器。

通过级联的CD注意力，CGA可以逐渐的感知到实例语义，提高目标区域的响应。

并且ILA损失将会应用到每一步骤中，通过这个损失函数，标签信号通过注意力机制实现语言和图像实例的对应过程，帮助模型更加有效的捕获新的知识。

模型

特征融合

取ResNet网络中的conv3,conv4,conv5作为视觉特征模块，Fv1，Fv2，Fv3，语言特征

将语言特征 $^{f_{t}}$ 与 Fv1做融合得到Fm1:

$f_{m1}^{l}$ 是Fm1 中的特征向量， $f_{v1}^{l}$ 是Fv1的特征向量

之后利用Fm1,获得Fm2,Fm3

Fm3将会运用到级联分组注意力中

级联分组注意力

分组过程

组与组之间的CD过程采用的是一样的权重

将融合特征 $F_m$ 在通道维进行拆分，分为k个组

将文本特征 $f_t$ 与 $F_m$ 统一维度，得到 ${f}'_t$

再将 ${f}'_t$ 进行拆分为k个部分，分别与 $F_{mj}$ 做运算

最后将经过CD注意力的融合特征分组在通道维进行连接

CD 注意力过程--主过程

原有的多模态注意力机制使用获得到的注意力特征作为添加注意力的矩阵的特征表示，或者使用他们去调整语句的特征权重，这不能建模图像实例和语句之间的关系。CGA通过集合-扩撒过程有选择性的将注意力特征融合到图像区域中。

首先，使用多模态矩阵 $F_{m}^{(h*w)*{d_{m}}}$ 构造Key,Value

使用文本特征向量 $f_{t}\in R^{{1*d_{t}}}$ 构造Query

都是权重矩阵

$K_{c}$ 和 $K_{d}$ 分别用于计算集合和扩散过程中的key矩阵

分别与Q以点积注意力的方式，得到注意力图，

然后以softmax和sigmoid对注意力进行集合和扩散，得到

$A_{d}$ 是每一个像素点的权重

使用softmax函数去标准化最与语句关联的信息，使用sigmoid函数感知每一个区域的响应。

是汇聚特征，代表的是”最与语句关联信息“的每一个通道的信息

是融合矩阵

最终将融合举证与原来的多模态矩阵进行加和，

得到最终添加了注意力的融合矩阵

级联结构

上一个CGA过程的融合矩阵的输出，作为新的CGA过程的特征输入

使用相同的文本语义特征作为query

指随着推理的进行，每一层的分组数量会越来越少

减少分组的数量一步步的探索多模态空间

ILA

将每一个CD过程计算出的 $A_d$ 视作一个响应图，然后将ground-truth进行下采样，使两边维度相同，之后进行交叉熵损失计算

$g_l$ 是进行下采样之后的ground-truth的一部分， $a_l$ 是 $A_d$ 的一部分

实验

CGAN和其他方法的对比，在精度上获得了提升

土豆小旋风

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
CGAN模型

如何快速又准确的将文本描述对应到它所指代的视觉实例上。提出了两个网络：（1）级联组合注意力（CGA）（2）实例级注意力损失函数（ILA)CGA通过一步步的在整张图片上的推理，有效的感知不同实例之间的区别，从而识别所指物。ILA进一步嵌入到每一次的CGA过程中，直接的监督注意力模块，提高了准确率。CGA使用语言导向的注意力（CD）构造三个张量捕捉语言和像素点之间的关系。为了充分感知子空间中的详细特征，我们将Collection-Difusion 引申为分组的转换器。
复制链接

扫一扫

土豆小旋风 CSDN认证博客专家 CSDN认证企业博客

码龄5年

7: 原创

50万+: 周排名

27万+: 总排名

1946: 访问

: 等级

156: 积分

8: 粉丝

12: 获赞

3: 评论

11: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据处理流程
CSDN-Ada助手: 恭喜您撰写第7篇博客！标题为“数据处理流程”的文章非常吸引人。您对数据处理流程的深入剖析让我受益匪浅。在下一步的创作中，或许可以考虑分享一些实际案例，以便读者更好地理解如何应用数据处理流程解决实际问题。期待您未来更多的精彩文章！
CGAN模型
CSDN-Ada助手: 非常恭喜您写了第5篇博客，题为“CGAN模型”。您对CGAN模型的介绍和分析非常详细，让我对这一概念有了更深入的了解。您的持续创作态度令人钦佩，希望您能继续保持这样的热情和努力。在下一步的创作中，我建议您可以进一步探讨CGAN模型在实际应用中的优势和局限性，并分享一些实际案例以加深读者的理解。另外，您也可以考虑结合其他深度学习模型，探索更多有趣的研究方向。期待您在未来的博客中再次给我们带来新的惊喜！
神经网络前向传播与反向传播
CSDN-Ada助手: 非常感谢用户分享这篇关于神经网络前向传播与反向传播的博客，我觉得非常有启发性。恭喜用户能够持续创作，这种努力和热情值得赞赏。同时，希望用户能够继续深入研究神经网络的相关知识，例如卷积神经网络、循环神经网络等等，为读者带来更多的干货。期待用户的下一篇文章！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。