研读Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval

论文作者为Fang Zhao Yongzhen Huang Liang Wang Tieniu Tan
Center for Research on Intelligent Perception and Computing
Institute of Automation, Chinese Academy of Sciences

这是一篇研究多层语义的文章,在这之前大多数的哈希方法并没有关注这一点。他们只是通过比较二进制哈希码的汉明距离来分辨图片语义的相似程度。

作者通过一个cnn网络来得到紧凑的哈希码。一个哈希函数h : RD → {−1, 1}将D维输入映射为二维码。假设数据集为D = {xn}Nn
=1,他的标签有L = {1, ...,C}那么多,一个数据点x ∈ RD拥有其中的某个或某几个标签,作者将产生一个哈希函数集h(x) = [h1(x), h2(x), ...,hK(x)](K ≪ D)来产生K维的哈希码。

在没有使用CNN网络之前,一般用手工提取特征的方法来获得特征,如GIST或者SIFT,但是他们丢失了关键的语义信息。

作者通过输入一个固定像素的图片通过5个卷积层和分别通过FCa和FCb两个全连接层来产生二进制哈希码,因为它要获得全局特征,所以它获得了所有像素而不是裁剪丢失信息。这里最关键的是将通过FCa和通过FCa与FCb产生的二进制码相结合来得到哈希函数以减少信息损失,因为通过FCa与FCb的信息可能丢失了语义的“敏感性”,以至于无法分辨细微的语义分别。

hash function :h(x;w) = sign(wT[fa(x); fb(x)]) 结合了两者的关系,更好地保留了语义信息。

对于一个query q  与数据点x相比,他的语义相似等级r可以被定义为:标签全部一样为r = |Yq|.一个不一样r = |Yq| − 1)。全不一样为0.

这是损失函数。之后用SGD来minimize

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习在语义道路场景的多模态融合中的探索是一项研究任务,目的是通过结合多种视觉和感知模态的信息,提升对道路场景的语义理解能力。 在这个任务中,我们使用深度学习的方法来处理不同模态的数据,如图像、激光雷达和 GPS 等。我们首先将这些模态的数据进行预处理,将其转换为神经网络可以处理的格式。然后,我们构建深度神经网络模型,用于将这些模态的信息进行融合。这种融合可以是级联式的,也可以是并行式的,即同时处理多个模态,以充分利用不同模态数据之间的相关性。 在模型的训练过程中,我们使用大量的标注数据,将不同模态数据与其对应的语义标签进行匹配。通过反向传播算法,我们可以优化模型参数,使其能够准确地预测道路场景的语义信息。 深度学习的多模态融合方法在语义道路场景中有广泛的应用。通过结合不同模态的信息,我们可以更好地理解道路场景中的障碍物、车辆、行人等不同元素。这种融合方法还可以提高对不同道路环境的适应性,使得我们的模型在城市、乡村等不同场景中都能够有效地工作。 总之,深度学习的多模态融合方法对于道路场景的语义理解具有重要意义。通过结合多种视觉和感知模态的信息,我们可以提高对道路场景的认知能力,为自动驾驶、智能交通等领域的发展提供有力支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值