- 博客(31)
- 收藏
- 关注
原创 FACT: Frame-Action Cross-Attention Temporal Modeling for Efficient Action Segmentation
监督动作分割,是将一个长的未裁剪的视频分割成几个片段,并将每个片段分配动作类别。(a)图是直接用时间卷积或transformer来处理具有时序性质的视频帧图像,但它们在处理长视频时有一个固有的缺点,即模型必须从数万帧中推断出动作关系。最近的工作使用了transformer而不是时间卷积来提高分割性能,这在效率上有很大的牺牲。即模型不能很好的预测出分段结果的同时预测出分段的类别。
2024-11-04 20:58:37 649
原创 Efficient and Effective Weakly-Supervised Action Segmentation via ATBA
介绍动作分割的目的是将一个长的未裁剪的视频分割成几个片段,并将每个片段分类为一个动作类别,如下图所示:现有的训练方法大多需要通过对所有帧和文本进行序列比对来推断用于训练的伪分段,这不仅耗时,而且训练时很难并行化。为了解决这一问题,引入了弱监督分割,举例来说,假设有一个视频,其中包含一个人在做各种动作(如散步、跑步、打篮球等)。弱监督学习可以利用一个简单的文本信息进行转录,比如一个视频里存在跑步,打篮球,踢足球这些动作标签。这个文本提供了动作序列的大致信息,但并不需要详细到每一帧的动作类型。我们只会得到
2024-07-23 15:16:28 1076
原创 如何解决TypeError: type torch.cuda.FloatTensor not available. Torch not compiled with CUDA enabled.
看自己NVIDIA能接受cuda的最高型号是多少(后续下载要小于最高型号):第一步点击系统信息,第二部点击组件,以此电脑为例,可以看到允许的最高型号是12.2。,举例来说就是假设计算机本身更新的cuda是12.1的,但是可能由于之前下载pytorch对应的cuda是11.6的,这时候在运行时就会报错。原因是因为自己下的对应torch的cuda和计算机本身的cuda版本不一致,导致了。让计算机的cuda和pytorch的cuda版本对应一致。可以看到torch版本对应的是2.3.1 ,cuda是12.1.
2024-07-05 17:10:25 432
原创 Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation
即在一个数据集或样本集合中,有些动作类别的样本数量非常少,而另一些动作类别的样本数量非常多的情况,对伪标签强制执行平衡分配假设,这是不友好的。与以前的方法不同,我们的方法不需要知道视频的动作顺序来实现时间一致性。以下图c为例,没有引入时间一致性时,会发现在相邻帧内,有可能会出现边界帧,但是显然不符合常理,因为我们知道一个事件接着另一个事件在短期的帧内,是不会出现变化的,更多的是图b这种,因此就需要引入时间一致性,当相邻帧内出现不同运动类的情况时,增大它的代价矩阵,属于同一类时,则置零,代价矩阵不变。
2024-06-14 15:38:36 949
原创 CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation
首先,取S(i)中的一帧作为查询键Q,其他片段的一帧作为被查询键K,接下来,我们形成与查询xj i相关联的三种类型的否定对:1)视频内否定对:否定帧来自相同的视频,但来自不同的片段,即X’(j)的帧。因为往常的视频分割任务通常都会有人工标注的昂贵的注释集,而本文应用特征重建是由于语义的异质性,边界处的帧很难重建(通常具有较大的重建误差),这有利于事件边界检测(这样就能很容易检测出边界)。如图3所示,对比学习的正对由段内帧组成,而负对来自来自相同或其他视频的其他片段的段间帧,或存储器中的帧。
2024-05-13 17:08:30 763
原创 C语言复习1
格式:define 标识符 字符串标识符:宏定义的名字字符串:常数,表达式,格式串等例子:define P 3.1415926 #这样以后要用的到3.1415926打P就行如果x=1,则执行第一句,如果x = 0,则执行第二句。通过该宏定义,实现了一个LED的闪亮操作。
2024-04-16 22:25:28 221
原创 TriDet: Temporal Action Detection with Relative Boundary Modeling
得到金字塔的序列特征后,我们提出了一个面向边界的三叉戟头精确定位的动作边界的基础上的相对边界建模,即考虑在一定时期内的特征之间的关系,并获得在该时期内的每个时刻的相对概率是一个边界。B是用于边界预测的箱的数量(超参),对于制定好B的一组特征序列F,首先以某一时刻t为center,然后去计算其他帧作为start的概率。1.我们提出了一个有效的可扩展粒度感知(SGP)层,以减轻在视频特征中发生的自注意力的秩损失问题(秩损失后会导致矩阵的秩变为1,从而导致序列之间的相似性过高),并在不同的时间粒度上聚合信息。
2024-04-09 20:30:55 331
原创 Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Langua
二者经过转置相乘后,得到T x N维的向量,这时每一帧有N维,再将每一帧的N维进行Textual Pooling(实际上就是平均池化),得到T x 1的向量,这时每一帧都是一维的且有相似性分数,但是我们希望的是这整个视频对应这个词,因此我们需要将视频帧也进行压缩,就有了Frame Embeddings与Frame Saliency转置相乘得到了只有长度为1但维数是D维的向量,接下来消除D维即可。3.在文本到视频的方向,我们引入视频概念发现机制,以产生时间显着性,这是用来产生增强的视频识别的紧凑的视频表示。
2024-03-27 17:15:16 621
原创 数学建模笔记(8)蒙特卡罗法
简而言之,基本思想就是用足够多的案例去充当概率。在正方形内撒足够多的点,然后通过公式比较即可。当样本容量足够大时,事件的发生频率即为概率。
2024-03-25 21:03:55 137
原创 Local Compressed Video Stream Learning for Generic Event Boundary Detection
为了解决这些问题,我们提出了一种新的压缩视频表示学习方法,用于事件边界检测,该方法完全利用压缩域中的丰富信息,即,RGB、运动矢量、残差和内部图像组(GOP)结构,而无需完全解码视频。该方法缺乏I帧和P帧之间的相互作用,因此获得较差的结果。在视频编解码领域中,回溯技术通常指的是在运动估计和帧间预测中使用的一种技术,用于寻找最佳的运动矢量和残差,以便进行帧间压缩和解压缩。帧间预测利用了视频序列中相邻帧之间的空间相关性和时间相关性,通过运动估计和运动补偿来实现对帧间差异的编码和压缩,从而达到减小数据量的效果。
2024-03-25 19:54:29 667
原创 MAE-GEBD:Winning the CVPR’2023 LOVEU-GEBD Challenge
进行数据预处理后,再经过encoder处理视频序列,经过全连接层输出,这里还引入了MSE Loss和BCE Loss,BCE Loss容易理解,因为视频分段本身就是个二分类任务,引入BCE Loss(交叉熵损失)可以更好地调参训练模型,这里的MSE Loss作者的解释是MSELoss可以补偿BCELoss带来的潜在梯度不足。更好地训练video数据。在训练过程中,这10个折叠中的9个折叠的地面实况沿着以及所有测试集伪标签(总共约50 k个样本)用作我们的训练集,剩余的1个折叠数据用作我们的验证集。
2024-03-15 20:18:47 1549 1
原创 数学建模笔记(6)主成分分析
用这个矩阵的目的是找到第一个方差最大值(第一主成分)后,要保证第二主成分和第一主成分无关,这样才是不同的指标,因此就需要用到协方差矩阵/相关系数矩阵,来衡量成分的相关性。我们可以把多种指标中综合成几个少数的综合指标,做为分类的型号,将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映特殊体型的指标。例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多?
2024-03-12 21:30:55 263 1
原创 数学建模笔记(4)模糊综合评价
2) 140的隶属度是0,150的隶属度是0.2…0-25岁对应隶属度为1,25-100岁则对应函数。模糊集合中包含着隶属函数,隶属函数体现了隶属度。1)x1的隶属度对应0,x2的隶属度对应0.2…
2024-03-08 19:42:30 132 1
原创 数学建模笔记(4)熵权法
要敘重)在层次分析法和TOPSIS法里权重都是主观得到的(主观评价、查文献等),那有没有更为客观的方法得到权重呢?熵权法就是一个客观评价的方法,通过计算各指标的熵值来确定各指标的权重,以反映各指标在决策中的重要性。在熵权法中,熵值越大表示指标的信息不确定性越高,权重越小;反之,熵值越小表示指标的信息不确定性越低,权重越大。简单来说,就是当比较的某个数据种类中数据差异不大的话,那自然而然其所对应的权重应该更小,数据差异大的话则对应权重越大。(即计算各个因素之间的权重,熵权越大,权重越小)
2024-03-07 11:00:12 1567 1
原创 Progressive Attention on Multi-Level Dense Difference Maps for Generic Event Boundary Detection
首先,作者提到了一个张量 C×T×T=M,在 DDM 中,对于每一帧 Ii,其特征序列 M(i) 表示了该帧与其他帧的差异,因此,作者想要聚合 M(i)的元素以获得对应帧的剪辑级运动测量,作者提出了一种框架式注意力机制,用来计算 M(i)中所有元素的权重,这个权重由该帧的 RGB 特征 A(i)来决定,利用每帧的 RGB 特征 Ai 来参与 Mi 的所有元素,生成权重 γi,并将所有差异根据这些权重自适应地聚合到运动测量 Di 中。需要注意的是,这个T x T是在DDM下方显示的,C表示的是维数。
2024-03-06 10:54:53 1506 1
原创 数学建模笔记(2)
4.求算术平均值并存储到w1上---------w1=sum(Stand_A,2)./n;3.再用判断矩阵上的各个元素进行点除并存储到Stand_A上---------------------------Stand_A=A./Sum_A。将Sum_A拓展成三行的矩阵,其中n=3----------------------------Sum_A=repmat(Sum_A,n,1)2.对判断矩阵进行按列求和并储存在Sum_A中--------Sum_A=sum(A);将下图在代码层面上进行实现。
2024-03-01 11:09:51 212 1
原创 数学建模笔记(1)
将三地的四个条件分别进行对比,就会得到四个分数矩阵,以第一个景色为例,北戴河与苏杭之比=2:1,即北戴河的风景为二级,苏杭相较北戴河为一级。对该问题有以下几点,首先,四个条件的权重不同,可能景色条件大于价格条件,因此对四个条件应设置不同权重的占比,其次,再比较相同条件下各城市的分数,即哪个城市风景分数高,哪个城市分数低,并将这些分数进行归一化。1.如果矩阵是一致性矩阵(每两行与每两列之间成倍数关系):直接将每一列的结果进行归一化,例子如下:可知该矩阵是一致矩阵,则。2.如果矩阵是非一致矩阵,则。
2024-02-28 15:12:56 384 1
原创 Pythorch--卷积神经网络
3.更快的训练速度:由于参数共享减少了参数的数量,因此可以减少计算和存储的需求,从而加快模型的训练速度。此外,参数共享还可以提供更好的梯度信息,有助于更快地收敛。1.减少参数数量:参数共享可以大大减少模型的参数数量,从而降低了计算和存储的成本。特别是在具有大量参数的深层网络中,参数共享可以显著减少模型的复杂性。2.提高模型的泛化能力:通过参数共享,模型可以共享不同位置或层次之间学到的知识,使得模型能够更好地捕捉数据中的共性信息,从而提高模型的泛化能力。进行池化后,需要先将图片拉成向量,才能接全连接层。
2024-01-28 12:53:18 297
原创 Pythorch笔记(2)Tensor的相关
对矩阵求和,得到一个和值,但本质上还是一个矩阵,只不过该矩阵就一个值。#生成X行Y列的全零矩阵,把zeros改成ones就是全1矩阵;**)**#类似于numpy中的reshape操作,将原本是两行三列的tensor转换为三行两列。#对矩阵求均值,得到一个均值,但本质上还是一个矩阵,不过该矩阵就一个值。#-1是自动计算,1是展平,即深度学习中的flatten操作。x2不同的是,这是两个tensor的乘法,即矩阵相乘。#生成两个两行三列的x1,x2张量(矩阵)#设置一个两行两列的全1矩阵,并跟踪运算。
2023-12-02 16:24:10 40 1
原创 Pythorch笔记(1)读取数据集,建立模型,训练模型
因为我们一开始把数据转成了pytorch识别的Tensor,现在将Tensor数据转换成numpy类型的,目的是能够让numpy识别之后进行绘图,model(X)得到的只是模型的式子,并不是数据,因此需要.data操作,c=‘r’代表把折线的颜色变红。例如,data=pd.read_csv(‘dataset/income1.csv’)//文件格式为csv,文件路径为dataset/income1.csv。//得到损失函数,MSELoss是均方损失,和上面的Linear都是nn里自带的算法。
2023-11-30 20:09:13 272 1
原创 Boundary-Matching Network for Temporal Action Proposal Generation笔记
*4.后处理:**对于得出的置信度分数,有些候选框(starting-ending)有可能会发生重叠,例如第一帧—第十帧是一个候选框,第一帧—第五帧也是一个候选框,两个候选框的置信度分数都很高,那么就需要去除其中一个框,这里使用的方法是非极大值抑制(Non-Maximum Suppression,NMS)。如上图所示,用双流卷积网络提取出特征后,生成了一个叫做BM置信图的map,在这张map里,可以直接观测到预测的提名及其置信度分数大小,相比于BSN,先生成特征,后逐个生成置信度分数,极大地提高了效率。
2023-11-28 15:27:42 144
原创 理解transformer的自注意力机制
(注意:查询Thinking和Machines的关系和查询Machines和Thinking的关系是不一样的,因为他们的前后位置关系不一样,前者是q1与k2的内积,后者是q2与k1的内积)但是机器真能准确的翻译畜第二个saw是锯子吗,人脑是通过判断句子之间的相关性得出结论的,而自注意力机制同样如此,通过判断句子中单词的相关性来做出精准翻译。V2,(V就是与K对应的value值,即实际的特征信息,在这个例子里就是Thinking具体翻译的意思),通过这样的方式,我们就能模拟人脑思考句子的方式,进行输出。
2023-11-21 16:04:53 79
原创 UBoCo论文
如上图,一段视频序列长度为L的视频被Res50(已经被训练过的特征提取器)和我们自定义的encoder进行特征提取,提取出了特征向量后,将该特征向量复制一次并分为两组,经过一个相似性函数能够得到TSM(具体怎么得到的呢:本质上TSM是一个矩阵,将TSM看成一个坐标轴,坐标轴的(1,1)就是第一帧和第一帧作比较,因为是同一帧,相似度肯定最高,因此最亮,放到该TSM的(1,1)位置,以此类推,能够得到整个视频的相似性矩阵,即整个视频序列的TSM)。(为什么这么计算呢?在得到TSM后,检测出TSM中的事件边界。
2023-11-15 17:31:20 234
原创 李宏毅机器学习笔记(1)
1.Regression(回归):做预测,例如根据今天的PM2.5预测明天的PM2.5数值一样,属于回归任务。2.classification(分类):做分类,分为二元分类与多元分类,简单来说就是做选择题,例如目标检测里的检测该物是猫还是狗还是其他。3.structered learning(结构化学习):让机器产生有结构化的物件,生成一张图片等。
2023-11-02 17:56:30 56 1
原创 光流法应用于GEBD
例如,使用光流特征提取器和深度学习模型的结合可以实现更准确的目标识别和分类,同时还可以提供有关目标运动和变形的信息。光流特征提取器通常基于光流的基本原理和算法,如Lucas-Kanade方法或Farneback方法,来计算图像中每个像素点的光流矢量。这些光流矢量可以提供有关图像中物体运动和变形的重要信息。光流的概念是指在连续的两帧图像中由于图像中的物体移动或者摄像头的移动导致的图像中目标像素的移动。例如,在目标跟踪中,光流特征提取器可以用于计算目标在图像中的运动轨迹和速度,从而实现对目标的跟踪和定位。
2023-10-30 21:48:52 109 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人