GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记

最新推荐文章于 2025-02-10 20:44:53 发布

低调流年的微凉

最新推荐文章于 2025-02-10 20:44:53 发布

阅读量1.1k

点赞数

分类专栏：跨模态检索文章标签：深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40680309/article/details/115922295

版权

跨模态检索专栏收录该内容

6 篇文章

订阅专栏

GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记

摘要：基于深度网络的跨模态检索最近取得了重大进展。然而，弥合模态差距以进一步提高检索精度仍然是一个关键的瓶颈。在本文中，我们提出了一种图卷积散希方法，它通过亲和图学习模态统一的二进制码。构建了一个端到端深度体系结构：一个语义编码器模块、两个特征编码网络和一个图形卷积网络(GCN)。我们设计了一个语义编码器作为一个教师模块，来指导特征编码过程。学生模块，为语义信息的利用。此外，利用GCN来探索数据点之间固有的相似性结构，这将有助于产生区分哈希码。在三个基准数据集上的大量实验表明，所提出的GCH优于最先进的方法。

模型图：

算法流程图：

损失函数

（1）标签网络损失：、

（2）特征网络损失（其中Hb为图网络的输出）：

（3）图网络损失

图网络的输入：fr的计算过程

图网络的输出Hb为信标特征

个人总结：

整个训练过程为：

1.训练标签。让标签也生成哈希码。loss设计：（1）让标签生成的哈希码之间的相似性，接近原始标签之间的相似性；（2）让标签生成的哈希码接近标签

2.训练图像和文本。loss设计：（1）让图像（或文本）产生的哈希码接近标签的哈希码（sign后的）；（2）让图像（或文本）预测出的标签（把特征sigmoid就可）接近真正标签。

3.训练图网络。图网络的输入特征是文本与图像互注意力融合后的特征，输入图是标签矩阵（大于0的都取1），图网络的输出是特征graph_code和预测出的标签graph_logit（把graph_code sigmoid一下即可）。loss设计：（1）graph_code之间的相似性与标签之间的相似性接近；（2）graph_logit与标签接近。

4.再次训练图像和文本。loss设计：（1）让图像（或文本）产生的哈希码接近图网络的输出graph_code;（2）让图像（或文本）产生的哈希码接近标签的哈希码（sign后的）。

点评：

其提出的语义编码器其实就是标签训练的网络，把标签也生成哈希码，让图像和文本的标签都接近它，以此来试图引导图像和文本网络所生成的哈希码接近标签的语义相关性。其图网络是为了挖掘数据的相互依赖性，让相似的数据，生成的哈希码也相似。

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。