“玩转标签,发现层次的力量!”:跨模态哈希方法研究

640

「论文访谈间」是由 PaperWeekly 和中国中文信息学会社会媒体处理专委会(SMP)联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可。

 

640?wx_fmt=png

640?wx_fmt=png

论文动机

近年来,随着智能终端等多媒体设备的普及,人们可以通过图片、文字等多种模态来表征数据。相应地,跨模态检索,即给定一个查询模态(如文本),检索另一模态(如图片)的实际应用也随即产生。为了有效地处理海量多媒体数据,跨模态哈希(Cross-Modal Hashing)凭借其低廉的存储成本和查询时间成本,已被广泛应用于跨模态检索应用当中。其中,有监督的跨模态哈希方法由于很好地利用了数据的语义标签,提高了检索性能,而受到越来越多研究学者的关注。

跨模态数据往往呈现底层特征异构、高层语义相关的特点。在有监督的跨模态哈希方法中,如何利用数据标签,使数据在映射到汉明空间后,保持原始空间中的相似性关系,建立跨模态之间的关联,是需要解决的关键问题。

通常,现有的方法在处理多标签数据时,将数据的多个标签看做是独立的,简单地根据数据是否共享至少一个标签来判断它们的相似性。但是这种方法忽略了标签之间存在的语义相关关系。然而在许多实际应用场景中,例如时尚电商等领域,为了帮助用户浏览,时尚物品通常会被预先建立的类别层次结构组织起来,即每一个物品都由一组不同粒度的层次类别所标记,如下图所示。

640?wx_fmt=png

显然,不同层次的类别从不同的角度表征了时尚物品之间的语义相似性。从最细粒度层出发,物品 I1 和物品 I3 是不相似的,分属 “Mini Skirt” 和 “Long Skirt” 两个类别。但从粗粒度层来看,它们共属于“Skirt”这个类别,因此又是相似的。

针对已有研究的局限性,作者试图通过挖掘多标签数据的类别层次结构中所传达的丰富语义信息,提高有监督的跨模态哈希方法的检索性能。


模型

作者希望利用层次标签信息来监督跨模态哈希映射的过程,使得到的哈希码更多地保留数据在原始空间中的相似性关系。具体地,作者提出了一个新颖的有监督层次跨模态哈希模型 HiCHNet,统一了层次判别性学习和正则化跨模态哈希两个主要过程,整体框架图如下所示:

640?wx_fmt=png

该框架由一个端到端的双路径神经网络组成。其中,每条路径分别代表一种模态。为了充分利用预先建立的标签层次结构,作者首先使用一组“分层哈希表示”来表征数据的模态特征,这些表示对应于不同粒度的类别。

基于此,作者一方面通过在每一层哈希表示上进行对应层类别的多分类操作,使不同层的哈希表示对于对应层次的类别更具有判别性;另一方面引入了层次正则化,以全面保留类别层次结构编码的语义相似性关系。这样,经过各层哈希码串联得到的目标哈希码,同时保留了层次判别性和层次语义相似性。


符号表示

在具体介绍模型各个部分之前,作者列举了在文章中使用的各符号的指代含义,如下表所示:

640?wx_fmt=png


分层哈希表示


作者首先利用深度神经网络来提取图片和文本特征。对于图片模态,采用 VGG-F 卷积神经网络结构来提取图片的原始特征。对于文本模态,设计全连接神经网络,提取文本特征。在获得了图片和文本特征之后,为了充分利用类别层次结构来监督哈希映射的过程,作者设计了多个全连接层,分别对应层次类别标签中的每一层。以图片或文本表示作为输入,得到图片或文本的分层哈希表示,具体公式如下:

640

这种哈希表示是最终哈希码的前身,通过如下符号函数,便可以得到二进制的层次哈希码。

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值