Soonki-CSDN博客

原创 BERT:BidirectionalEncoderRepresentations fromTransformers代码及数据解读

由于官网给的是TensorFlow版本的，github也有pytorch版本，但是给出的pytorch的代码是需要根据实际情况进行修改的。

2024-08-16 20:04:21 1016

原创 Align before Fuse Vision and Language Representation Learning with Momentum Distillation解读

不要被这个名字给唬住了，在深度学习中，知识就是神经网络中的权重和偏置等可学习参数。把一个大的模型，迁移到一个小的模型中，类似剪枝、量化等，不过技术路线不同，功能一致；把多个模型的功能，迁移到一个模型中，相当于一个模型集成了多个模型的能力；数据安全，如果说A公司训练了一个web-scale级别的数据集，但是实际上商用功能只需要部分数据，可以利用知识蒸馏，推出多个模型，避免原始模型数据泄露；

2024-07-26 18:14:41 932

原创 Transformer之Swin-Transformer结构解读

很多人说，Swin-Transformer就是另一种Convolution，但是解释得真就是一坨shit，这里我郑重解释一下，这是为什么？首先，Convolution是什么？Convolution是一种矩形区域内参数共享的Linear这么说可能不好理解，那么我们上代码上述代码通过了使用输入数据的维度变换，实现了利用nn.Linear来进行nn.Conv2d的过程，当然，nn.Conv1d甚至nn.Conv3d等也是同样操作。这里我们先记住，后面我们详细解释。

2024-07-23 17:29:42 908

原创 Transformer之Vision Transformer结构解读

什么是Transformer呢？就是把符号向量化为Token，再和位置编码求和或者做阿达玛积，最后送入一定层数的构成的Encoder和Decoder，就完成了Transformer的基础功能。那么，把上述过程，用在图片上面，这就是Vision Transformer，简称ViT。

2024-07-21 18:09:44 852

原创 Transformer之位置编码的通俗理解

在之前介绍的：两篇文章中，我们介绍了Token被作为一个整体送入Attention中进行计算，这样才能得到各个Token之间的关联。在NLP中，词语的顺序至关重要，比如说"爱做"和"做爱"，相同的词语所表达的意思却天差地别，所以编码器会把带有顺序信息的向量一同送入Attention中；在CV中，图像被nn.Conv2d切成一个个小块，然后把小块变成B11C的点，这些点共同构成送入Attention的patch_embedding，虽然对顺序的要求没有那么高，但是也是有一定要求的。

2024-07-20 17:57:25 1255

原创 Transformer之Attention的通俗理解

按照输入数据维度分类，Attention可分为普通Attention和Multi-Head Attention。上面是普通的Attention，下面的是Multi-head attention实际上，他就是将输入数据从BNC[B, N, C]BNC变成B×numheadsNCB×numheadsNC，然后再输入到Attention模块中进行注意力计算。那么这么做有什么好处呢？上面说道。

2024-07-18 17:52:02 864

原创 Transformer之Token的通俗理解

首先解释为什么不能用Encoder-Decoder的模型(原因和GAN是相同的)，因为输入和输出是相同的，模型在训练中会什么都不做，导致模型崩溃，这样根本无法解析出词向量。这些语言除了统计学规律，是不具备任何数学计算的能力的，所以，需要利用一定的映射方法，将其映射为数学语言，比如：数字或者矩阵。的维度填充，然后刨除部分维度，实现降维，使得编码结果对语义的信息表达不仅限于维度，还可以通过维度的长度表达。总结一下，就是把单词之类的语言，从one-hot形式的高维表达，通过矩阵变换实现降维，

2024-07-18 17:42:44 3861

原创 OSTrack: Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework论文和代码结构解读

OSTrack和ODTrack代码结构和内容基本一致，主要是采样方法有所区别代码中使用了很多CE的前缀，比如，vit_ce、ce_block等，这就是单纯的使用了candidate_elimination模块，所以会加一个ce前缀。

2024-07-13 16:28:05 1098 1

原创 ODTrack: Online Dense Temporal Token Learning for Visual Tracking论文及代码结构解读

代码中使用了很多CE的前缀，比如，vit_ce、ce_block等，这就是单纯的使用了candidate_elimination模块，所以会加一个ce前缀。

2024-07-12 21:56:23 1520

原创 STARK:Learning Spatio-Temporal Transformer for Visual Tracking论文及代码结构解读

什么是One-stream和Two-stream，参考文章。

2024-06-24 16:55:32 790

原创 FeatUp: A Model-Agnostic Framework for Features at Any Resolution论文和代码结构解读

FeatUp从任意图像特征中进行上采样，给现有的语义信息中增加空间分辨率。可学习的高分特征可以作为图片的隐式网络或者通用的上采样操作，而这种操作就是一个即插即用的模块，用于改善下游的密集型预测任务。

2024-06-19 17:54:54 1195 3

原创 GRM: Generalized Relation Modeling for Transformer Tracking论文模型及代码结构解读

如图所示，search和template分支是独立两根流线，提取特征后计算互相关信息，也是最常用的，缺点是提取的特征缺乏目标的感知性，对目标-背景的区分能力有限，两个patch之间信息交互度较差。

2024-06-19 15:49:32 923

原创 NVIDIA驱动、CUDA、Cudnn、Pytorch、MMCV和显卡算力对应关系以及安装

还是需要安装的，不然大概率安装驱动是会报错的。首先，建议把ubuntu镜像换成华为的，个人感觉这个还是蛮快的执行为安装的GCC和G++设置优先级如果不想设置优先级，可以用建立软连接的方法。

2024-03-20 19:11:29 4219 1

原创 AiATrack: Attention in Attention for Transformer Visual Tracking模型及代码结构解读

典型的Transformer跟踪框架中，通过自注意力模块增强参考帧和搜索帧的特征表示，并通过交叉注意力模块桥接它们之间的相关性，以在搜索帧中预测目标。作者引入了AiA（Attention in Attention）模块，字面意思，就是在一个Attention中，再引入一个Attention，并把该模块作为Encoder和Decoder的basis。，但是令人费解的是，这么庞大的网络结构，这么多的参数，在一个2080Ti显卡上居然能有38FPs。作者引入的AiA模块，就是基于。

2024-03-13 16:17:24 1259

原创 UniRepLKNet: Universal Perception Large-Kernel ConvNet模型结构和代码结构解读

UniRepLKNet: Universal Perception Large-Kernel ConvNet

2024-03-06 17:04:26 1255

原创 SiamSE: Scale Equivariance Improves Siamese Tracking论文和代码解读

结果依赖于所选的规范，但是对于各个规范都是等价的，例如对向量场进行变换，输出的向量场也会产生对应变换；对Kg的质量场进行变换，则以斤为单位的质量场也会变换。也就是说template和search进行相似度计算后，数值最大的地方是目标所在地，而数值非常小的是背景(已经经过了softmax)。是标准做法，这样可以有效保存图像的空间信息，但是补零的话，会让卷积追踪器的定位属性裂化。当且仅当在规范卷积的情况下，追踪器对于规范群的变换也是等变的。，这种特性和相似特征的正交性是非常符合的。是规范等变卷积层构成的，

2023-06-26 21:59:48 285 1

原创球谐函数的理解

计算机通过存储正交基的系数，从而压缩位置信息（例如环境光，即三维模型实际上是一个没有贴图的位置坐标，通过球谐函数记忆环境光的系数，从而简化过程）。在极坐标中，由径向的三角圆谐函数(1)和角向的复指数函数(2)组合而成的函数系(3)。，意思就是这一组正交基可以拟合出球面上任何一个点，如果是正方体，这种就没法拟合了。类似，该过程类似傅里叶变换，称之为广义傅里叶变换，而。第一个方程式距离的方程，第二个方程式角度的方程。，这三组正交基在空间的形状如图所示。决定了正交基的组数和波瓣的数目。阶的表达式为，就是所有。

2023-06-16 23:03:31 2190 2

原创 Rotation Equivariant Networks for Tracking论文解读

1. IntroductionThe task of visual object tracking with Siamese networks, referred as Siamese tracking, transforms the problem of tracking into similarity estimation between a template frame and sampled region from a candidate frame.孪生网络是把追踪任务描述成templat

2023-06-16 19:37:37 368 1

原创 Learning to Fuse Asymmetric Feature Maps in Siamese Trackers论文解读

实际上根本没有。

2023-06-15 16:34:15 252 1

原创关于卷积各种等变性的数学描述

论文General E(2)-Equivariant Steerable CNNs的知识补充，由于其中涉及了很多数学相关的知识，所以特此说明。

2023-06-14 20:43:47 687

原创 E2CNN: General E(2)-Equivariant Steerable CNNs论文解读

齐次空间与齐次坐标 Homogeneous Sapce and Homogeneous Coordination∙\bullet∙齐次坐标 Homogeneous Coordination\qquad齐次坐标本质上是4D向量(x,y,z,w)(x, y, z, w)(x,y,z,w)，在w=1w=1w=1处的三维空间定义为标准的3D空间，任何齐次坐标转化到标准3D空间坐标点为(xw,yw,zw)(\frac{x}{w},\frac{y}{w},\frac{z}{w})(wx,wy,wz)，

2023-06-14 20:18:51 1947

原创 SiamRN：Learning to Filter: Siamese Relation Network for Robust Tracking模型结构和代码解读

利用Head产生的cls和loc作用于特征图xf和原图x，产生新的特征图和gt，然后放入Relation Detector中，训练一个加权矩阵(或者说：过滤？Relation Detector的结果直接乘上用来Classify的feature（就是Xcorr），就是加权了。这里放上代码结构图，同时也是SiamRN网络结构图，基本上看这个可以达到复现的效果。个点的矩阵，包含了正样本1（16个），负样本0（48个），忽略样本 -1（外面的所有点都是负样本点，而大椭圆。(没用到)有什么区别。

2023-06-07 22:43:22 566 3

原创 Segment Anything模型结构解读

论文地址代码下载官网关于Segment Anything的理解1.人工标注过程使用公开数据集训练，并且让人工标注团队进行标注预测的mask，该过程总共进行6次，并产生430万个mask2.半自动标注过程模型产生的置信度相对较高的mask，不需要人工标注，而置信度相对不高的mask，由人工完成标注。举个例子，模型分割一张图片，总共产生了10个mask，其中有5个分割得很好，这部分就作为自动标注的mask，另外5个效果不好，就进行人工标注。该过程总共进行5次，产生590万个mask3.全自动过程

2023-04-24 21:11:58 18194 3