- 博客(48)
- 收藏
- 关注
原创 Long Short-Term Transformer for Online Action Detection 笔记
在线动作检测任务与普通的动作检测任务有很大区别,其目的是检测当前的视频帧是所属于哪一个类别,并且我们只有当前帧的之前帧的信息。在本文中,提出一个Long Short-Term Transformer(LSTR),通过长时和短时记忆来建模视频数据,模型由一个LSTR编码器,动态利用粗尺度的历史信息从一个扩展时间窗口(例如,2048帧跨越8分钟),连同一个LSTR解码器,从短时间窗口(例如,32帧跨越8秒)得到的精细特征。
2022-10-11 16:21:31 1590 1
原创 ACM-Net 阅读
ACM-Net全称action context modeling net,本文认为对于视频来说,除了独特的前景和背景帧外,还有大量语义模糊的动作上下文帧。将这些上下文帧分组到同一个背景类是没有意义的,因为它们在语义上与特定的动作类别相关。这在思想上与CoLa是一致的,Cola中获取困难动作与困难背景,也是这个道理。本文提出了一个ACM-Net 的动作上下文建模网络,它集成了一个三分支注意力模块,以同时计算每个时间的动作实例,上下文和非动作背景的可能性。
2022-09-28 09:47:41 568
原创 Weakly-supervised Temporal Action Localization by Uncertainty Modeling 阅读
在本文中,对背景帧提出了一种新的观点,背景帧被建模为分布外样本。然后,可以通过估计每个帧来自外分布的概率(称为不确定性)来检测背景帧。具体而言,从每个未裁剪的视频,选择top-k和bottom-k特征量,并分别考虑它们作为伪动作和背景帧。此后,我们设计了一个不确定性建模损失来分离它们的大小,通过该模型,能够在没有帧级标签的情况下间接建模不确定性,并在动作帧和背景帧之间提供更好的分离。
2022-09-22 09:47:21 489
原创 VideoMAE 论文阅读
本文提出了视频遮挡自动编码器是自监督视频预训练的高效数据学习者,受到ImageMAE的启发,提出了极高比例遮挡的video tube。极高的遮挡比例使得原本简单的任务变得更具有挑战性,从而促使在预训练过程中获得更有效的视频表示。VideoMAE继承了 masking random cubes和reconstructing the missing ones的简单管道,视频的时间维度使它们不同于图像中的遮挡。
2022-09-07 16:10:13 1616
原创 Self-supervised Video Transformer 阅读
本文是针对video transformer进行自监督训练,从一个给定的视频中,创建具有不同空间大小和帧率的局部和全局时空视图,自监督的目标是寻找相同视频的不同视图特征之间的匹配。Self-supervised Video Transformer(SVT),使用相似性目标训练师生模型,该目标通过时空注意力匹配沿时空维度的表示。提出一种新的自监督训练方式,利用全局和局部时空视图之间的时空关系来进行自监督训练。SVT中的自监督是通过联合motion和crossview的关系进行学习。
2022-09-02 15:56:01 1440
原创 ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal Action Localization 阅读
以往的方法大多使用多实例学习(MIL),就是通过对未修剪视频进行分类,来达到对其中视频片段的预测。本文认为将视频中片段视为独立的实例是错误的,他们之间有时间上的联系,比如片段内部和片段之间。动态段采样(dynamic segment sampling)以补充短时动作片段的作用段内和段间的注意力,建模动作动态和捕获时间依赖伪实例级监督,提高动作边界的预测除此以外,提出了多步细化策略,在模型训练的过程中逐步改进动作提议。...
2022-09-01 09:36:14 668
原创 Action Unit Memory Network for Weakly Supervised Temporal Action Localization 笔记
这篇文章是提出了一个动作单元记忆网络(AUMN),它的创新点我觉得是非常强的,作者也自己夸自己,说这篇文章是第一次用记忆网络来建模动作单元,网络内部的结构也是围绕动作单元来设计的...
2022-06-29 15:18:42 355
原创 Two-Stream Consensus Network论文阅读
本文是双流网络在弱监督时间动作定位任务上的应用。与动作识别上的双流网络不同,本文的双流网络是针对于弱监督时间动作定位来改造的,最终解决作者提出的在动作定位任务上难以解决的两个问题...
2022-06-22 11:08:40 184
原创 如何写好一篇论文
目录整体结构引言部分方法部分整体结构题目 and 摘要(整篇文章的浓缩)引言(说好自己的故事)方法(数学公式,结构图,)实验及结果(透过现象看本质)结论(说贡献)参考文献写作的顺序应当是:3 ->4->5->2->1从研究方法入手,对其展开研究,得到实验结果之后,对其进行讨论(下结论),在这三步过程中,应当保持阅读量,这样可以与其他人进行对比,发现自己的闪光点,并且把这些东西形成自己的引言部分,最后精雕细琢自己的题目和摘要。引言部分首先需要想到两个问题研
2022-04-07 20:40:22 542
原创 VideoLSTM 论文阅读
目录1.论文任务2.论文创新下载:https://arxiv.org/pdf/1902.09130.pdf1.论文任务VideoLSTM用于动作分类和定位,进行视频中动作的端到端学习。2.论文创新以soft-attention LSTM为基本架构在soft-attention LSTM架构中使用卷积。本文认为,图像的空间相关性相比于内积,卷积能够更好地捕获。引入motion特征,提出基于motion的注意力。因为在建模视频时,仅使用深层的卷积是不够的,还必须考虑注意力。通过标签和时间注意力
2022-04-01 19:32:53 666
原创 Video Modeling with Correlation Networks 阅读
目录一.论文背景及动机1.背景2.动机本文阅读之前,建议先简要看一遍 FlowNet 和 R(2+1)D一.论文背景及动机1.背景motion是识别视频中动作的重要线索,当前的动作识别模型一般使用两种方法:通过光流的输入,来显式的运用时间信息,或者说是运动信息,比如著名的two-stream网络通过使用能够同时获取时间和外观信息的3D 卷积filter来进行操作第一种方式的缺陷有不是完全end-to-end的视频分析,需要离线计算光流,计算光流比较耗时,没法达到实时解决的是short
2021-12-23 16:53:24 2265
原创 Multiscale Vision Transformers 论文阅读
目录一.了解MViT二.介绍MViT1.基本思想2.优势三.MViT模型1.多头池化注意力(Multi Head Pooling Attention)2.多尺度变换器网络(Multiscale Transformer Networks)2.1 Vision Transformer (ViT)2.2 Multiscale Vision Transformers (MViT)四.视频识别实验1.Kinetics-4002.Kinetics-6003.Kinetics-400的消融实验附:论文地址,代码地址一
2021-12-10 10:09:17 6865
原创 GCN理解
目录1.GCN 为何而生2.GCN 如何发挥作用2.1 GCN概述2.2 模型定义关于GCN的原文介绍,可以参照github上面GRAPH CONVOLUTIONAL NETWORKS相关的论文:SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS1.GCN 为何而生在具体了解GCN内部的模型之前,首先介绍一下它的作用,由于GCN公式的具体数学推导过于繁杂,在此不在介绍。深度学习一直都是被几大经典模型给统治着,如CNN、
2021-11-05 15:01:13 4288
原创 Attention is all you need论文阅读
目录1.简介2.attention机制3.Transformer结构3.1 Encoder3.2 Decoder3.3 Attention机制3.4 Position-wise Feed-forward Networks3.5 Position Embedding4.Why Self-Attention1.简介Attention机制最早在视觉领域提出,2014年Google Mind发表了《Recurrent Models of Visual Attention》,使Attention机制流行起来,这
2021-10-29 16:31:22 287
原创 Self-Attention理解
目录一.Attention机制一.Attention机制Attention用于计算"相关程度", 例如在翻译过程中,不同的英文对中文的依赖程度不同,Attention通常可以进行如下描述,表示为将query (Q)和键值对(key-value pairs) { Ki , Vi | i=1,2,3,…,m} 映射到输出上,其中query、每个key、每个value都是向量,输出是V中所有value的加权,其中权重是由query和每个key计算出来的,计算方法分为三步:计算比较Q和K的相似度,用f来
2021-10-22 16:00:25 260
原创 Convolutional Pose Machines 论文阅读
目录1.了解CPMs2.介绍CPMs2.1 Introduction2.2 methods1.了解CPMsCPMs(Convolutional Pose Machines):基于序列化的全卷积网络结构,学习空间信息和纹理信息,估计人体姿态.本文使用CNN进行人体姿态估计,它的主要贡献在于使用顺序化的卷积架构来表达空间信息和纹理信息。顺序化的卷积架构表现在网络分为多个阶段,每一个阶段都有监督训练的部分。前面的阶段使用原始图片作为输入,后面阶段使用之前阶段的特征图作为输入,主要是为了融合空间信息,纹理
2021-09-28 20:25:26 1034
原创 MINIST数据集测试不同参数对网络的影响
目录一.介绍1.实验环境2.网络结构二.网络效果1.初始状态2.有BN层3.激活函数tanhsigmoidrelu4. 正则化L2正则化Dropout5.优化器6. 学习率衰减三.最优测试附: 完整代码一.介绍本实验使用两个不同的神经网络,通过MINIST数据集进行训练,查看不同情况下最后的效果。1.实验环境Python 3.8Pytorch 1.8Pycharm2.网络结构单层卷积:一层卷积+一层池化+两层全连接class Net_1(nn.Module): def __in
2021-08-18 20:15:02 1088
原创 RNN层及时间序列预测
目录1.RNN层循环神经网络介绍RNN层原理RNN的缺点实现一个RNN(多层或单层)2.时间序列预测1.RNN层循环神经网络介绍循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness),因此在对序列的非线性特征进
2021-08-12 17:50:18 7297 3
原创 反向传播梯度推导
1.前向传播前向传播算法:将上一层的输出作为下一层的输入,并计算下一层的输出,一直到运算到输出层为止。对于Layer 2的输出对于Layer 3的输出[公式],[公式][公式]从上面可以看出,使用代数法一个个的表示输出比较复杂,而如果使用矩阵法则比较的简洁。将上面的例子一般化,并写成矩阵乘法的形式,[公式][公式]其中 [公式] 为 sigmoid 函数。这个表示方法就很简洁、很漂亮,后面我们的讨论都会基于上面的这个矩阵法表示来。所以,应该牢牢记住我们符号的含义,否则在后面推导反
2021-08-06 10:08:59 2534
原创 用Lenet 5处理CIFAR10数据集
1.LenetLeNet-5 这个网络虽然很小,但是它包含了深度学习的基本模块:卷积层,池化层,全连接层。是其他深度学习模型的基础, 这里我们对LeNet-5进行深入分析。同时,通过实例分析,加深对与卷积层和池化层的理解。C1层:类型:卷积层输入图片:3232卷积核大小:55卷积核种类:6输出featuremap大小:28*28S2层:类型:池化层输入:2828采样大小:22输出featuremap大小:14*14C3层类型:卷积层输入:1414卷积核大小:55卷积核
2021-07-30 20:36:55 764
原创 熵与交叉熵
1.熵的直观解释如果熵比较大,意味着这一信息有较多的可能状态,相应的每个状态的可能性比较低;因此每当来了一个新的信息,我们很难对其作出准确预测,即有着比较大的混乱程度/不确定性/不可预测性。并且当一个罕见的信息到达时,比一个常见的信息有着更多的信息量,因为它排除了别的很多的可能性,告诉了我们一个确切的信息。在天气的例子中,Rainy发生的概率为12.5%,当接收到该信息时,我们减少了87.5%的不确定性(Fine,Cloudy,Snow);如果接收到Fine(50%)的消息,我们只减少了50%的不确定性
2021-07-27 12:00:03 434
原创 激活函数介绍
激活函数1.激活函数介绍激活函数(Activation functions)对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。如图,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数。引入激活函数是为了增加神经网络模型的非线性。没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后,无非还是个矩阵相乘罢了。如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的
2021-07-24 12:24:01 315
原创 pytorch基本操作
1.索引与切片a = torch.rand(4, 3, 2, 2)print(a.shape, a[0].shape, a[0, 0].shape, a[0, 0, 0].shape, a[0, 2, 1, 0])print(a[:2].shape, a[:2, :1].shape, a[:2, :1, :1].shape)print(a.index_select(0, torch.tensor([0, 1, 2])).shape ) # 选择第一个维度的下标为0、1和2。第二个参数
2021-07-23 13:14:49 1078
原创 pytorch,创建tensor
1.从numpy来创建tensorimport numpy as npimport torcha = np.array([2,3.0])b = torch.from_numpy(a)print(b)a = np.ones([2,3])b = torch.from_numpy(a)print(b)2.给出list直接创建tensora = torch.tensor([2, 3.3])print(a)b = torch.FloatTensor([2, 3.3]) #不推荐使用大
2021-07-21 16:31:14 217
原创 pytorch基本数据类型
Data TypeType Checka = torch.randn(2, 3) # 初始化一个2行3列,值服从标准正态分布print(a.type()) # torch.FloatTensorprint(type(a)) # <class 'torch.Tensor'>print(isinstance(a, torch.cuda.FloatTensor)) # Falsea = a.cuda() #将其变为cuda上的print(isinstance(a, torch
2021-07-21 14:26:11 155
原创 线性回归问题实战
梯度下降梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(GradientDescent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。举一个非常简单的例子,如求函数f(x)=x^2 的最小值。利用梯度下降的方法解题步骤如下:1、求梯度,
2021-07-20 14:49:56 244
原创 python基础学习总结
1.输入输出函数示例a = 1b = 2.0print(a + b) # 加法print(a - b) # 减法print(a * b) # 乘法print(a / b) # 除法print(a ** b) # 幂a = int(input('a='))b = int(input('b='))print('%d+%d=%d' % (a, b, a + b), '%d-%d=%d' % (a, b, a - b))print('%d*%d=%d' % (a, b, a * b)
2021-07-20 14:18:44 154
原创 内部排序总结
排序冒泡排序#include<stdio.h>#define size 8void sort(int a[]){ int t; int flag=0; int pos; int k=size-1; for(int i=1;i<size;i++) { for(int j=0;j<k;j++) if(a[j]>a[j+1]) { ...
2019-08-30 17:16:12 74
原创 求树相关节点个数
求相关节点个数int depth(Bitree T)//求二叉树的深度 { if(T==NULL) return 0; else { int m=depth(T->left); int n=depth(T->right); if(m>n) return m+1; else return n+1; }}int number(Bitree T)//求...
2019-08-25 15:06:06 640 1
原创 有向图的拓扑排序
拓扑排序图及栈的定义#include<stdio.h>#include<stdlib.h>#define MAX_VEX 20typedef enum{ DG=1,AG,WDG,WAG}Graphkind;typedef struct Arcnode{ int adjvex; struct Arcnode* next;// int info;}Arc...
2019-08-19 17:47:06 211
原创 二叉查找树
二叉查找树创建二叉树#include<stdio.h>#include<stdlib.h>typedef struct BNode{ char data; struct BNode *left,*right;}BNode,*Bitree;void CreateTree(Bitree &T){ char c; scanf("%c",&c)...
2019-08-16 15:17:29 139
原创 有向图的遍历
邻接表有向图邻接表的建立初始化#include<stdio.h>#include<stdlib.h>#include<string.h>#define Maxsize 20#define MAX_VEX 20#define Vex 4#define Arc 4typedef enum{ DG=1,AG,WDG,WAG//分别为无向图,有向图,...
2019-08-15 14:38:46 3699
原创 电文译码
电文译码根据一棵哈夫曼树,将电文码翻译为对应的权重首先建立一棵哈夫曼树#include<stdio.h>#include<stdlib.h>#include<string.h>#define N 4typedef struct HTnode{ int weight; int parent,lchild,rchild;}HTnode,*HFtr...
2019-08-11 15:02:30 646
原创 哈夫曼树及其编码
哈夫曼树的建立#include<stdio.h>#include<stdlib.h>#define N 4typedef struct HTnode{ int weight; int parent,lchild,rchild;}HTnode,*HFtree;void selectnode(HFtree HT,int n,int &s1,int &am...
2019-08-10 22:24:32 448
原创 二叉树的基本操作
二叉树的基本操作二叉树的创建#include<stdio.h>#include<stdlib.h>typedef struct BNode{ char data; struct BNode *left,*right;}BNode,*Bitree;void CreateTree(Bitree &T)//使用先序递归的方式建立,输入..代表该节点已是树...
2019-08-08 17:31:28 276
原创 KMP算法
EMP算法#include<stdio.h>#include<string.h>void initnext(char* t,char* next){ next[1]=0; int j=0; int i=1; while(i<t[0]) { if(j==0||t[j]==t[i]) { i++; j++; next[i]=j;...
2019-08-07 19:01:13 209
原创 两个链表的交集和并集,要求不开辟新的空间
两个链表的交集和并集(无论有序还是无序),要求不开辟新的空间链表的基本操作#include<stdio.h>#include<stdlib.h>typedef struct LNode{ int data; struct LNode* next;}LNode;LNode* Createlist(int length)//尾插法建立链表 { LNode* ...
2019-08-06 13:24:19 638 3
原创 双端循环队列
网课题:双端循环队列,可以从队头或队尾入队,从队头出队。如果要入队的参数e,小于队头队尾和的平均值,则从队头入队,否则从队尾入队#include<stdio.h>#include<stdlib.h>#define Maxsize 8 typedef struct squeue{ int *data; int front; int rear;}squeue;...
2019-08-06 11:35:06 533
原创 求两个有序链表的交集和并集(不开辟新的空间)
求两个有序链表的交集和并集(用建立时la和lb的空间,即不生成lc来存储)链表的相关基本操作#include<stdio.h>#include<stdlib.h>typedef int Elemtype;typedef struct LNode{ Elemtype data; struct LNode* next;}LNode;LNode* Create...
2019-08-06 11:28:36 1083
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人