Hierarchical Bilinear Pooling for Fine-Grained Visual Recognition

Hierarchical Bilinear Poolingfor Fine-Grained Visual Recognition

 

文中贡献

主要贡献如下

  1. 使用简单有效的交互层双线性pooling技术,实现内部特征层的交互。
  2. 基于交互层的双线性pooling,使用一个刚性双线性pooling结构。

模型结构

传统的双线性pooling

图像I经过卷积网络CNN,提取出特征X, 其大小是h*w*c,定义一个X上特殊区域的描述子。那么双线性模型如下

交叉层的双线性pooling

 

其中x, y表示不同层的descriptors

文中网络结构

 

将每一层通过独立线性映射,转化到高维空间project layer,然后将project layer经过交互点乘的形式。得到ineraction layer。然后在进过sum_pooling链接fc层。

 

使用vgg16的 relu5_1, relu5_2 以及relu5_3层

 

维度d 设为[512, 8192]

表现最好的是relu5­-3*relu5-2 + relu5-3*relu5-1 + relu5-5 * relu5-1

不同的卷积层扩展到高维空间中,通过独立线性映射。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测。 HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值