视频高层语义特征提取问题

最新推荐文章于 2023-10-21 16:51:41 发布

小李飞刀李寻欢

最新推荐文章于 2023-10-21 16:51:41 发布

阅读量2.7k

点赞数

分类专栏： imagednn 文章标签： TSM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SPESEG/article/details/103788857

版权

imagednn 专栏收录该内容

61 篇文章 5 订阅

订阅专栏

视频高层语义其实也是针对帧来做的，因为帧之间的连续性或者连贯性目前的确有难度，这种连续性就是指行为或者动作的识别，空间上的概念。很多都是时间上的概念，目前视频理解就是如此，复杂的动作，比如SomethingV2中就有很多，根据我上面关于TSM视频的测试可知，抽帧组合的方式其实还是满足时间上的概念的，比如这个博文中提及的帧数选取的问题，无论怎样两个clip序列都是满足时间上的先后顺序的，

测试的是

TSM ResNet50

16 * 2clip

63.1

[ 2  5  9 12 15 18 22 25 28 31 35 38 41 44 48 51  1  4  7 10 14 17 20 23
 27 30 33 36 40 43 46 49]

每个clip均是16帧，另外又做了3倍的crops-裁剪，就是图像的一些基本操作，所以总的来说是16*6个帧。

说实话，到目前为止，我还是懵逼的状态，除了paper中所提及的shift之外，我没发现有任何的创新之处，在我看来就是个resnet50，TSM基于TSN做的，TSN采用的resnet50的预训练模型，当然也有其他的模型可以尝试。

文中说需要平衡空间和时间特征的学习，将输入X经过shift后再conv与X融合进行预测，这是常见的Residual结构。

总体结构如下：来源于TSMpaper

然而，我不觉得这种特征提取的方式会比仅仅提取帧特征的方法要优秀，因为最终我并不是为了做视频行为识别，而是为了做视频之间的相似性，而后者并不太在乎这种时间、空间上的信息，甚至完全缺失也可，但如果考虑其中的行为相似性，则空间信息可能会需要。

【上述言论仅供参考，纯属胡诌】

下面寡人进入正题，inceptionV3特征提取，预训练的模型已经是1000类的了，将top层去掉仅仅提取帧高层语义。

最后的输出是2048维度

global_average_pooling2d_1 (Glo (None, 2048)         0           mixed10[0][0]

输入是固定的

input_1 (InputLayer)            (None, 299, 299, 3)  0

因此这个只需送入模型即可得到，不费劲。

此2048暂不做PCA，先来做个图像之间的测度，关于测度问题，请查看我之前的博文。【虽说并未完善，但不妨看看】

这里采用一个余弦相似度，关于此概念，百度百科中已有明确概念。手写一个也不费劲

我哥的余弦相似度是

这个是自己测的，不知道准不准，既然如此，

换个我的图片？？

这个。。。所谓的高层语义就是这个吗？？？

我有点不敢苟同啊。

另外有相关问题可以加入QQ群讨论，不设微信群

QQ群：868373192

语音图像深度-学习群

各位新年好，感谢对我一年的关注、包容与支持。

多谢大家，我还是少年。

下班。

小李飞刀李寻欢

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
6
评论
视频高层语义特征提取问题

视频高层语义其实也是针对帧来做的，因为帧之间的连续性或者连贯性目前的确有难度，这种连续性就是指行为或者动作的识别，空间上的概念。很多都是时间上的概念，目前视频理解就是如此，复杂的动作，比如SomethingV2中就有很多，根据我上面关于TSM视频的测试可知，抽帧组合的方式其实还是满足时间上的概念的，比如这个博文中提及的帧数选取的问题，无论怎样两个clip序列都是满足时间上的先后顺序的，测试的是...
复制链接

扫一扫

专栏目录

小李飞刀李寻欢 CSDN认证博客专家 CSDN认证企业博客

码龄7年

694: 原创

2364: 周排名

1338: 总排名

101万+: 访问

: 等级

1万+: 积分

1万+: 粉丝

1915: 获赞

501: 评论

1063: 收藏

私信

关注

热门文章

分类专栏

NLP与推荐算法付费 138篇
Notebook 付费 109篇
python 付费 209篇
OpenSource 30篇
LeetCode 23篇
imagednn 61篇
Android Studio 9篇
java 39篇
speechdnn 50篇

最新评论

centOs中cuda如何安装/卸载/更新
小李飞刀李寻欢: [code=cpp] https://developer.nvidia.com/cuda-12-2-2-download-archive [/code]
centOs中cuda如何安装/卸载/更新
小李飞刀李寻欢: [code=python] https://developer.nvidia.cn/cuda-downloads [/code]
mac本安装brew
小李飞刀李寻欢: https://download.csdn.net/download/SPESEG/89548290?spm=1001.2014.3001.5501
shell解压rar文档
小李飞刀李寻欢: [code=plain] #install.sh #!/bin/bash # We don't need return codes for "$(command)", only stdout is needed. # Allow `[[ -n "$(command)" ]]`, `func "$(command)"`, pipes, etc. # shellcheck disable=SC2312 set -u abort() { printf "%s\n" "$@" >&2 exit 1 } # Fail fast with a concise message when not using bash # Single brackets are needed here for POSIX compatibility # shellcheck disable=SC2292 if [ -z "${BASH_VERSION:-}" ] then abort "Bash is required to interpret this script." fi # Check if script is run with force-interactive mode in CI if [[ -n "${CI-}" && -n "${INTERACTIVE-}" ]] then abort "Cannot run force-interactive mode in CI." fi # Check if both `INTERACTIVE` and `NONINTERACTIVE` are set # Always use single-quoted strings with `exp` expressions # shellcheck disable=SC2016 if [[ -n "${INTERACTIVE-}" && -n "${NONINTERACTIVE-}" ]] then abort 'Both `$INTERACTIVE` and `$NONINTERACTIVE` are set. Please unset at least one variable and try again.' fi [/code]
python识别图像中的人物个数具体代码
小李飞刀李寻欢: [code=html] #实际测试，能出结果，但准确性待提高 [/code]

大家在看

最新文章

2024

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小李飞刀李寻欢 您的欣赏将是我奋斗路上的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。