自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 问答 (2)
  • 收藏
  • 关注

原创 BERT:BidirectionalEncoderRepresentations fromTransformers代码及数据解读

由于官网给的是TensorFlow版本的,github也有pytorch版本,但是给出的pytorch的代码是需要根据实际情况进行修改的。

2024-08-16 20:04:21 869

原创 Align before Fuse Vision and Language Representation Learning with Momentum Distillation解读

不要被这个名字给唬住了,在深度学习中,知识就是神经网络中的权重和偏置等可学习参数。把一个大的模型,迁移到一个小的模型中,类似剪枝、量化等,不过技术路线不同,功能一致;把多个模型的功能,迁移到一个模型中,相当于一个模型集成了多个模型的能力;数据安全,如果说A公司训练了一个web-scale级别的数据集,但是实际上商用功能只需要部分数据,可以利用知识蒸馏,推出多个模型,避免原始模型数据泄露;

2024-07-26 18:14:41 829

原创 Transformer之Swin-Transformer结构解读

很多人说,Swin-Transformer就是另一种Convolution,但是解释得真就是一坨shit,这里我郑重解释一下,这是为什么?首先,Convolution是什么?Convolution是一种矩形区域内参数共享的Linear这么说可能不好理解,那么我们上代码上述代码通过了使用输入数据的维度变换,实现了利用nn.Linear来进行nn.Conv2d的过程,当然,nn.Conv1d甚至nn.Conv3d等也是同样操作。这里我们先记住,后面我们详细解释。

2024-07-23 17:29:42 821

原创 Transformer之Vision Transformer结构解读

什么是Transformer呢?就是把符号向量化为Token, 再和位置编码求和或者做阿达玛积,最后送入一定层数的构成的Encoder和Decoder,就完成了Transformer的基础功能。那么,把上述过程,用在图片上面,这就是Vision Transformer,简称ViT。

2024-07-21 18:09:44 784

原创 Transformer之位置编码的通俗理解

在之前介绍的:两篇文章中,我们介绍了Token被作为一个整体送入Attention中进行计算,这样才能得到各个Token之间的关联。在NLP中,词语的顺序至关重要,比如说"爱做"和"做爱",相同的词语所表达的意思却天差地别,所以编码器会把带有顺序信息的向量一同送入Attention中;在CV中,图像被nn.Conv2d切成一个个小块,然后把小块变成B11C的点,这些点共同构成送入Attention的patch_embedding,虽然对顺序的要求没有那么高,但是也是有一定要求的。

2024-07-20 17:57:25 1105

原创 Transformer之Attention的通俗理解

按照输入数据维度分类,Attention可分为普通Attention和Multi-Head Attention。上面是普通的Attention,下面的是Multi-head attention实际上,他就是将输入数据从BNC[B, N, C]BNC变成B×numheadsNCB×numheadsNC,然后再输入到Attention模块中进行注意力计算。那么这么做有什么好处呢?上面说道。

2024-07-18 17:52:02 738

原创 Transformer之Token的通俗理解

首先解释为什么不能用Encoder-Decoder的模型(原因和GAN是相同的),因为输入和输出是相同的,模型在训练中会什么都不做,导致模型崩溃,这样根本无法解析出词向量。这些语言除了统计学规律,是不具备任何数学计算的能力的,所以,需要利用一定的映射方法,将其映射为数学语言,比如:数字或者矩阵。的维度填充,然后刨除部分维度,实现降维,使得编码结果对语义的信息表达不仅限于维度,还可以通过维度的长度表达。总结一下,就是把单词之类的语言,从one-hot形式的高维表达,通过矩阵变换实现降维,

2024-07-18 17:42:44 1778

原创 OSTrack: Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework论文和代码结构解读

OSTrack和ODTrack代码结构和内容基本一致,主要是采样方法有所区别代码中使用了很多CE的前缀,比如,vit_ce、ce_block等,这就是单纯的使用了candidate_elimination模块,所以会加一个ce前缀。

2024-07-13 16:28:05 858

原创 ODTrack: Online Dense Temporal Token Learning for Visual Tracking论文及代码结构解读

代码中使用了很多CE的前缀,比如,vit_ce、ce_block等,这就是单纯的使用了candidate_elimination模块,所以会加一个ce前缀。

2024-07-12 21:56:23 1092

原创 STARK:Learning Spatio-Temporal Transformer for Visual Tracking论文及代码结构解读

什么是One-stream和Two-stream,参考文章。

2024-06-24 16:55:32 656

原创 FeatUp: A Model-Agnostic Framework for Features at Any Resolution论文和代码结构解读

FeatUp从任意图像特征中进行上采样,给现有的语义信息中增加空间分辨率。可学习的高分特征可以作为图片的隐式网络或者通用的上采样操作,而这种操作就是一个即插即用的模块,用于改善下游的密集型预测任务。

2024-06-19 17:54:54 1004 3

原创 GRM: Generalized Relation Modeling for Transformer Tracking论文模型及代码结构解读

如图所示,search和template分支是独立两根流线,提取特征后计算互相关信息,也是最常用的,缺点是提取的特征缺乏目标的感知性,对目标-背景的区分能力有限,两个patch之间信息交互度较差。

2024-06-19 15:49:32 768

原创 NVIDIA驱动、CUDA、Cudnn、Pytorch、MMCV和显卡算力对应关系以及安装

还是需要安装的,不然大概率安装驱动是会报错的。首先,建议把ubuntu镜像换成华为的,个人感觉这个还是蛮快的执行为安装的GCC和G++设置优先级如果不想设置优先级,可以用建立软连接的方法。

2024-03-20 19:11:29 2461

原创 AiATrack: Attention in Attention for Transformer Visual Tracking模型及代码结构解读

典型的Transformer跟踪框架中,通过自注意力模块增强参考帧和搜索帧的特征表示,并通过交叉注意力模块桥接它们之间的相关性,以在搜索帧中预测目标。作者引入了AiA(Attention in Attention)模块,字面意思,就是在一个Attention中,再引入一个Attention,并把该模块作为Encoder和Decoder的basis。,但是令人费解的是,这么庞大的网络结构,这么多的参数,在一个2080Ti显卡上居然能有38FPs。作者引入的AiA模块,就是基于。

2024-03-13 16:17:24 1079

原创 UniRepLKNet: Universal Perception Large-Kernel ConvNet模型结构和代码结构解读

UniRepLKNet: Universal Perception Large-Kernel ConvNet

2024-03-06 17:04:26 842

原创 SiamSE: Scale Equivariance Improves Siamese Tracking论文和代码解读

结果依赖于所选的规范,但是对于各个规范都是等价的,例如对向量场进行变换,输出的向量场也会产生对应变换;对Kg的质量场进行变换,则以斤为单位的质量场也会变换。也就是说template和search进行相似度计算后,数值最大的地方是目标所在地,而数值非常小的是背景(已经经过了softmax)。是标准做法,这样可以有效保存图像的空间信息,但是补零的话,会让卷积追踪器的定位属性裂化。当且仅当在规范卷积的情况下,追踪器对于规范群的变换也是等变的。,这种特性和相似特征的正交性是非常符合的。是规范等变卷积层构成的,

2023-06-26 21:59:48 233

原创 球谐函数的理解

计算机通过存储正交基的系数,从而压缩位置信息(例如环境光,即三维模型实际上是一个没有贴图的位置坐标,通过球谐函数记忆环境光的系数,从而简化过程)。在极坐标中,由径向的三角圆谐函数(1)和角向的复指数函数(2)组合而成的函数系(3)。,意思就是这一组正交基可以拟合出球面上任何一个点,如果是正方体,这种就没法拟合了。类似,该过程类似傅里叶变换,称之为广义傅里叶变换,而。第一个方程式距离的方程,第二个方程式角度的方程。,这三组正交基在空间的形状如图所示。决定了正交基的组数和波瓣的数目。阶的表达式为,就是所有。

2023-06-16 23:03:31 1351 2

原创 Rotation Equivariant Networks for Tracking论文解读

1. IntroductionThe task of visual object tracking with Siamese networks, referred as Siamese tracking, transforms the problem of tracking into similarity estimation between a template frame and sampled region from a candidate frame.孪生网络是把追踪任务描述成templat

2023-06-16 19:37:37 300

原创 Learning to Fuse Asymmetric Feature Maps in Siamese Trackers论文解读

实际上根本没有。

2023-06-15 16:34:15 211

原创 关于卷积各种等变性的数学描述

论文General E(2)-Equivariant Steerable CNNs的知识补充,由于其中涉及了很多数学相关的知识,所以特此说明。

2023-06-14 20:43:47 582

原创 E2CNN: General E(2)-Equivariant Steerable CNNs论文解读

齐次空间与齐次坐标 Homogeneous Sapce and Homogeneous Coordination∙\bullet∙齐次坐标 Homogeneous Coordination\qquad齐次坐标本质上是4D向量(x,y,z,w)(x, y, z, w)(x,y,z,w), 在w=1w=1w=1处的三维空间定义为标准的3D空间,任何齐次坐标转化到标准3D空间坐标点为(xw,yw,zw)(\frac{x}{w},\frac{y}{w},\frac{z}{w})(wx​,wy​,wz​),

2023-06-14 20:18:51 1506

原创 SiamRN:Learning to Filter: Siamese Relation Network for Robust Tracking模型结构和代码解读

利用Head产生的cls和loc作用于特征图xf和原图x,产生新的特征图和gt,然后放入Relation Detector中,训练一个加权矩阵(或者说:过滤?Relation Detector的结果直接乘上用来Classify的feature(就是Xcorr),就是加权了。这里放上代码结构图,同时也是SiamRN网络结构图,基本上看这个可以达到复现的效果。个点的矩阵,包含了正样本1(16个),负样本0(48个),忽略样本 -1(外面的所有点都是负样本点,而大椭圆。(没用到)有什么区别。

2023-06-07 22:43:22 504 3

原创 Segment Anything模型结构解读

论文地址代码下载官网关于Segment Anything的理解1.人工标注过程使用公开数据集训练,并且让人工标注团队进行标注预测的mask,该过程总共进行6次,并产生430万个mask2.半自动标注过程模型产生的置信度相对较高的mask,不需要人工标注,而置信度相对不高的mask,由人工完成标注。举个例子,模型分割一张图片,总共产生了10个mask,其中有5个分割得很好,这部分就作为自动标注的mask,另外5个效果不好,就进行人工标注。该过程总共进行5次,产生590万个mask3.全自动过程

2023-04-24 21:11:58 17622 3

原创 关于DIMP:Learning Discriminative Model Prediction for Tracking的Pipeline的理解

DIMP: Learning Discriminative Model Prediction for Tracking

2023-03-12 20:33:38 332

原创 关于ATOM:Accurate Tracking by Overlap Maximization的Pipeline的理解

ATOM:Accurate Tracking by Overlap Maximization文章参考:https://arxiv.org/abs/1811.07628

2023-03-10 22:50:00 319 1

BERT:BidirectionalEncoderRepresentations fromTransformers代码结构

BERT:BidirectionalEncoderRepresentations fromTransformers代码结构

2024-08-18

Swin-Transformer代码结构

Swin-Transformer代码结构

2024-07-23

OSTrack代码结构

OSTrack: Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework论文和代码结构

2024-07-13

ODTrack: Online Dense Temporal Token Learning for Visual Track

ODTrack: Online Dense Temporal Token Learning for Visual Tracking论文及代码结构

2024-07-12

STARK:Learning Spatio-Temporal Transformer for Visual Tracking

STARK:Learning Spatio-Temporal Transformer for Visual Tracking论文及代码结

2024-06-24

FeatUp文和代码结构

FeatUp: A Model-Agnostic Framework for Features at Any Resolution论文和代码结构

2024-06-19

GRM: Generalized Relation Modeling for Transformer Tracking结构图

GRM: Generalized Relation Modeling for Transformer Tracking结构图

2024-06-19

UniRepLKNet: Universal Perception Large-Kernel ConvNet

模型结构及代码结构图高清版

2024-03-13

AiATrack: Attention in Attention for Transformer Visual Tracking

模型以及代码结构的高清大图

2024-03-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除