视频高层语义特征提取问题

视频高层语义其实也是针对帧来做的,因为帧之间的连续性或者连贯性目前的确有难度,这种连续性就是指行为或者动作的识别,空间上的概念。很多都是时间上的概念,目前视频理解就是如此,复杂的动作,比如SomethingV2中就有很多,根据我上面关于TSM视频的测试可知,抽帧组合的方式其实还是满足时间上的概念的,比如这个博文中提及的帧数选取的问题,无论怎样两个clip序列都是满足时间上的先后顺序的,

测试的是

TSM ResNet5016 * 2clip63.1
[ 2  5  9 12 15 18 22 25 28 31 35 38 41 44 48 51  1  4  7 10 14 17 20 23
 27 30 33 36 40 43 46 49]

每个clip均是16帧,另外又做了3倍的crops-裁剪,就是图像的一些基本操作,所以总的来说是16*6个帧。

说实话,到目前为止,我还是懵逼的状态,除了paper中所提及的shift之外,我没发现有任何的创新之处,在我看来就是个resnet50,TSM基于TSN做的,TSN采用的resnet50的预训练模型,当然也有其他的模型可以尝试。

文中说需要平衡空间和时间特征的学习,将输入X经过shift后再conv与X融合进行预测,这是常见的Residual结构。

总体结构如下:来源于TSMpaper

 

然而,我不觉得这种特征提取的方式会比仅仅提取帧特征的方法要优秀,因为最终我并不是为了做视频行为识别,而是为了做视频之间的相似性,而后者并不太在乎这种时间、空间上的信息,甚至完全缺失也可,但如果考虑其中的行为相似性,则空间信息可能会需要。

【上述言论仅供参考,纯属胡诌】

下面寡人进入正题,inceptionV3特征提取,预训练的模型已经是1000类的了,将top层去掉仅仅提取帧高层语义。

最后的输出是2048维度

global_average_pooling2d_1 (Glo (None, 2048)         0           mixed10[0][0]                

输入是固定的

input_1 (InputLayer)            (None, 299, 299, 3)  0          

因此这个只需送入模型即可得到,不费劲。

此2048暂不做PCA,先来做个图像之间的测度,关于测度问题,请查看我之前的博文。【虽说并未完善,但不妨看看】

这里采用一个余弦相似度,关于此概念,百度百科中已有明确概念。手写一个也不费劲

我哥的余弦相似度是

这个是自己测的,不知道准不准,既然如此,

换个我的图片??

这个。。。所谓的高层语义就是这个吗???

我有点不敢苟同啊。

 

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音图像深度-学习群

 

各位新年好,感谢对我一年的关注、包容与支持。

多谢大家,我还是少年。

下班。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值