论文阅读笔记——End-to-end Learning of Action Detection from Frame Glimpses in Videos

论文题目:End-to-end Learning of Action Detection from Frame Glimpses in Videos
出处:arXiv,目前尚未有正式出版
作者及单位:
Serena Yeung1, Olga Russakovsky1,2, Greg Mori3, Li Fei-Fei1
1Stanford University, 2Carnegie Mellon University, 3Simon Fraser University
 
 
相关工作:视频中的行为检测大部分现存工作采用:构建帧级的分类器,对一段视频在不同的时间尺度上进行详尽的检测,之后采用后处理,例如持续时间的先验和非极大值抑制。这些对行为定位的非直接建模在精度和计算效率上都不能达到令人满意的效果。
本文方法:作者提出一种直接分析行为的时域边界的end-to-end的方法。作者的直觉:行为检测是一项持续,循环往复的观察和提炼的任务。人类在提供单帧或者几帧观察,能够对行为什么时候发生有一个预测。然后会后跳或者回退一些帧来核实并且快速的缩小行为位置的区间。如Figure 1,
模型:具体的模型结构如Figure 2所示,模型有两个主要组成部分,observation network和recurrent network。observation network用来编码视频帧,本文采用VGG来编码,采用最后一层全连接层长度为1024的向量变表示视频帧,如Figure 2中的 On,VGG需进行fine-tune。recurrent network采用三层的LSTM-RNN网络,每层隐层单元数均为1024。每个时间步,输出d(n)=(s(n),e(n),c(n)),p(n)和l(n+1)。其中d(n)为检测到的第n个时间窗口的信息,s为开始的位置,e为结束位置,c为置信度,p为binary value,标识d(n)是否emit,即是否是真的是行为片段,l(n+1)为下一个要“attend”的视频帧的位置(此处,我认为这个模型也是attention模型,l(n+1)为权重),注意,l(n+1)可能跳回到前面的视频帧,即作者所谓的回调来做refinement。
训练:d可以使用bp训练,p和l不可微,采用增强学习来学习。
数据:采用 THUMOS’14 Dataset和 ActivityNet Dataset,结果相对之前的方法有较大的提高。
结论:提出了一个端到端的行为检测的方法。

转载于:https://www.cnblogs.com/aaa-YK/p/5886851.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是一个基于Matlab的简单注意力机制实现代码示例: %% 假设输入为一个 28x28 的图像 input_image = rand(28, 28); %% 初始化注意力参数 num_glimpses = 5; % 注意力机制迭代次数 glimpse_size = 8; % 每个注意力窗口的大小 sigma = 0.1; % 注意力窗口方差 %% 循环迭代注意力机制 for i = 1:num_glimpses %% 创建一个注意力窗口并计算注意力权重 glimpse = create_glimpse(input_image, glimpse_size); weights = attention_weights(glimpse, sigma); %% 应用注意力权重并将结果输入到下一次迭代 input_image = glimpse .* weights; end %% 创建注意力窗口的函数 function glimpse = create_glimpse(input_image, size) %% 从输入图像中随机选择一个位置作为注意力窗口中心 center_row = randi(size(input_image,1) - size); center_col = randi(size(input_image,2) - size); %% 提取注意力窗口 glimpse = input_image(center_row:center_row+size-1, center_col:center_col+size-1); end %% 计算注意力权重的函数 function weights = attention_weights(glimpse, sigma) %% 创建一个正态分布的注意力权重矩阵 [rows, cols] = size(glimpse); [x, y] = meshgrid(1:cols, 1:rows); x = x - cols/2; y = y - rows/2; d = sqrt(x.^2 + y.^2); weights = exp(-(d.^2) / (2*sigma^2)); %% 对注意力权重进行归一化 weights = weights / sum(weights(:)); end 注意:这是一个非常简单的示例,实际的注意力机制可能会有更复杂的实现。此外,该示例仅用于说明注意力机制的基本思想,并不适用于实际应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值