Online_Video Moment Localization via Deep Cross-modal Hashing论文阅读1

各类标志

在这里插入图片描述
未修剪的视频集合
在这里插入图片描述
代表第k个视频。
在这里插入图片描述
对于第k个视频有多少个查询。
在这里插入图片描述
对于一个视频的查询集。
在这里插入图片描述
在这里插入图片描述
由人员标定的,第k个视频,针对查询集的所有目标片段。
在这里插入图片描述
第j个目标片段的开始时间和结束时间。
在这里插入图片描述
训练好的跨模态哈希网络的出的候选时刻集。
在这里插入图片描述
由C3D产生的第k个视频的局部特征集合,Rx是

VEN
在这里插入图片描述

  1. 采用C3D模型获取局部特征
  2. 结合Bi-TCN模型,捕获对应的前上下文和后上下文信息来学习局部特征。上图是一个3层Bi-TCN,第k个视频的每个元素经过三层一维的膨胀卷积处理后,将两个方向的上下文进行整合,形成更全面的特征表示。
  3. 采用一维正则卷积形成候选时刻集
  4. 应用一个MLP模型获得所有候选集的特征表示
局部特征与全局特征

参考:https://blog.csdn.net/qq_26898461/article/details/49885673

局部特征(local features):
在这里插入图片描述
中间一列即为局部特征

  1. 一些局部才会出现的特征
  2. 局部:一些能够稳定出现并且具有良好的可区分性的一些点,这样在物体不完全受到遮挡的情况下,一些局部特征依然稳定存在。
  3. 如上图:一方面:用这些稳定出现的点(局部特征)来代替整幅图像,可以大大降低图像原有携带的大量信息,起到减少计算量的作用。另一方面:当物体受到干扰时,一些冗余的信息(比如颜色变化平缓的部分和直线)即使被遮挡了,我们依然能够从未被遮挡的特征点上还原重要的信息。

全局特征

  1. 方差,颜色直方图。如果用户对整个图像的整体感兴趣,而不是前景本身感兴趣的话,全局特征用来描述总是比较合适的。
  2. 缺点:无法分辨出前景和背景却是全局特征本身就有的劣势,特别是在我们关注的对象受到遮挡等影响的时候,全局特征很有可能就被破坏掉了。
Bi-TCN

输入xk进入有E-1层的Bi-TCN的输出可以表示为:
在这里插入图片描述
在这里插入图片描述
第e层的一维膨胀卷积
在这里插入图片描述
膨胀系数
在这里插入图片描述
第e层滤波核大小

待补充

  • C3D
  • 膨胀卷积
  • 膨胀系数
  • 滤波核大小
  • MLP
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值