视频理解领域小样本学习调研报告

视频理解领域小样本学习调研报告


0 前言

  • 本篇调研了小样本学习在动作识别领域的进展,旨在快速掌握最新研究进展,方便评估小样本学习是否能够有效应用到行为识别领域。
  • 术语解释
    • N-way K-shot:在测试时,从测试集中随机选出N个类,从N个类中任意选取K+X个样本,其中K个样本N类(共KN个样本)组成Support Set, X个样本N类(共XN个样本)组成Query Set。支撑集Support Set中的视频为Query Set提供参考信息。
  • 参考资料
  • 其他
    • 能用的数据集
    • 别人已经实现的demo
    • 开源代码
    • 如果要用在摔倒上要怎么做
    • 方法原理上可行否?比如是否适用于目前的问题:有一些样本很多,有一些类别样本很少。方向很重要!发现不行及时止损。
    • 工业上有什么应用?

1. 分类

Action Genome(li Feifei2019)提出的分类:
  • 1、用样本较多的类别数据学习一个分类器,然后用该分类器去鉴别少样本类别。4.2论文属于第一种。
  • 2、 通过学习不变性或者分解来实现少样本分类。CMN\TARN、ProtoGAN都属于第二类方法。
ProtoGAN提出的分类
  • 1.元学习:
    在训练阶段模仿小样本推理过程。CMN
  • 2.表征学习:
    尝试学习新样本与已知小样本间的相似性。OTAM
  • 3.生成模型:
    通过生成模型合成数据来增强新类别的样本量。ProtoGAN

2. 常用数据集总结

数据集动作类别数总视频数train:val:test 或train:testSOTA
UCF1011011332051:5095.5%(by AMeFu-Net)
HMDB5151676626:2575.5% (by AMeFu-Net)
Olympic-Sports167838:886.3%(by ProtoGAN)
miniMIT200200*550120:40:4056.7%(by ARN)
小样本版Kinetics100100*10064:12:2486.8%(by AMeFu-Net)
小样本版Something-Something V2100100*10064:12:2452.3%(by OTAM)
结论
  • 需要准备多少数据:每类准备50-100个视频片段

3. 开源代码

TRX

4. 论文简述

4.1 ProtoGAN: Towards Few Shot Learning for Action Recognition
  • 相关资料:
    • Github 暂无
  • 论文基本信息:
    • 领域:小样本学习
    • 作者单位:印度理工学院 & 奔驰印度研发
    • 发表期刊和时间:ICCV2019
    • 谷歌引用量:13
  • 一句话总结:
    • 提出ProtoGAN结构,**在UCF101(80.2%), HMDB51(54%) 和 Olympic-Sports(86.3%)**达到SOTA效果。
  • 简述
    • 思想: 通过ProtoGAN生成制定新类别的视频特征解决小样本视频识别问题。且首次提出Generalized Few-Shot Learning(G-FSL) 设置Benchmark.
    • G-FSL:与FSL不同之处在于,FSL只考虑新类别(Novel Classes)的识别效果,G-FSL将在训练中拥有足够样本量的类别也考虑进去了(Seen Classes)。
    • 效果:
      • 在FSL设置下对比效果
        在这里插入图片描述
4.2 A Generative Approach to Zero-Shot and Few-Shot Action Recognition
  • 相关资料:
    • Github 暂无
  • 论文基本信息:
    • 领域:小样本学习
    • 作者单位:印度理工学院马德拉斯分校
    • 发表期刊和时间:2018WACV
    • 谷歌引用量:56
4.3 TARN: Temporal Attentive Relation Network for Few-Shot and Zero-Shot Action Recognition
  • 相关资料:
    • Github 暂无
  • 论文基本信息:
    • 领域:小样本学习
    • 作者单位:伦敦玛丽女王大学
    • 发表期刊和时间:BMVC2019
    • 谷歌引用量: 15
  • 一句话总结:
    • 提出TARN结构,小样本版Kenetics数据集上精度达80.66%。
  • 在这里插入图片描述
4.4 CMN: Compound memory networks for few-shot video classification.
  • 相关资料:
    • Github 暂无
  • 论文基本信息:
    • 领域:小样本学习
    • 作者单位:悉尼科技大学
    • 发表期刊和时间: ECCV2018
    • 谷歌引用量:47
  • 一句话总结:
    • 提出Compound Memory Network(CMN)结构,在小样本版Kinetics数据集上精度达78.9%。
  • 补充
    • 数据集制作:在Kinetics数据集上随机挑选100类,每类100个样本视频作为小样本数据集。其中64类为训练集,12类为验证集,24类为测试集。
    • 在这里插入图片描述
4.5 OTAM: Few-shot video classification via temporal alignment
  • 相关资料:
    • Github 暂无
  • 论文基本信息:
    • 领域:小样本学习
    • 作者单位:斯坦福
    • 发表期刊和时间:CVPR2020
    • 谷歌引用量:24
  • 一句话总结:
    • 提出OTAM结构,小样本版Kinetics精度达85.8%。
  • 在这里插入图片描述
4.6 ARN: Few-shot Action Recognition with Permutation-invariant Attention
  • 相关资料:
    • Github 暂无
  • 论文基本信息:
    • 领域:小样本学习
    • 作者单位:牛津&澳大利亚国立&香港大学
    • 发表期刊和时间:CVPR2020
    • 谷歌引用量:11
  • 一句话总结:
    • 提出 Action Relation Network(ARN) 结构,在 HMDB51, UCF101, miniMIT 三个数据集上达到SOTA,UCF101数据集精度为84.8%
  • 在这里插入图片描述
4.7 AMeFu-Net:Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition
  • 相关资料:
  • 论文基本信息:
    • 领域:小样本学习
    • 作者单位:复旦&牛津
    • 发表期刊和时间:ACM2020
    • 谷歌引用量:–
  • 一句话总结:
    • 提出AMeFu-Net,小样本版Kinetics精度达86.8%.
  • 在这里插入图片描述
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值