计算机视觉
文章平均质量分 77
人工智能
差不太多先生
这个作者很懒,什么都没留下…
展开
-
GPT系列解读--GPT1
GPT-1采用了Transformer架构,并使用了大规模的无监督预训练方法,能够生成连贯的自然语言文本。具体来说,GPT-1使用了一个基于Transformer解码器的自回归语言模型(auto-regressive language model),通过最大化文本序列的概率,预测下一个单词。其中,GPT-1在单个英文句子的语言模型任务上表现最好,达到了0.99的困惑度(perplexity),超过了之前的SOTA模型。GPT-1的成功为基于预训练的自然语言处理模型的发展提供了新的思路和方法。原创 2023-03-21 17:23:34 · 3128 阅读 · 1 评论 -
Python/Pytorch常用函数大汇总(持续更新中)
nargs - 应该读取的命令行参数个数,可以是具体的数字,或者是?在上面的代码中,我们先导入了argparse这个包,然后包中的ArgumentParser类生成一个parser对象(好多博客中把这个叫做参数解析器),其中的description描述这个参数解析器是干什么的,当我们在命令行显示帮助信息的时候会看到description描述的信息。而对于tensor的计算操作,默认是要进行计算图的构建的,在这种情况下,可以使用 with torch.no_grad():,强制之后的内容不进行计算图构建。原创 2023-02-04 17:25:09 · 965 阅读 · 0 评论 -
论文阅读笔记--SiameseFC
B为batch_size,gt代表ground truth,对于每个通道值都一样,靠近中心位置全部置1,代表是正样本。以bbox的中心为中心,构建一个面积为127*127的区域,其中包括bbox周围环境信息,如果超出图片范围则通过像素平均值进行填充。以上一帧bbox的中心为中心,构建一个面积为255*255的区域,如果超出范围则通过平均值进行pad。预测时,第一帧bbox已知的,且预测是顺序预测,因此,预测过程中,预测帧前一帧的bbox是已知的。的时候,这时候会有最大的相似度,这为网络输出的。原创 2023-02-04 17:16:29 · 182 阅读 · 0 评论 -
论文阅读笔记--Siamese RPN++
如图,模板图像和检测图像的feature map,在回归分支和分类分支中,都首先分别经过一个卷积神经层(由conv层和bn层构成),得到一样的空间分辨率和channel维度。该卷积神经层不同于SiamRPN中的卷积神经层,其不对feature map进行channel升维,只是对两组feature map都进行了finetune,使其维度对称。在经过卷积神经层之后,模板图像和检测图像的feature map进行depthwise的相关操作,即是逐个channel的两者的分量之间进行相关操作,输出和chann原创 2023-02-04 17:13:43 · 307 阅读 · 1 评论 -
论文阅读笔记--Swintrack
(考虑到transformer是序列到序列模型,transformer自然可以接受多模态数据作为输入)这里是直接将两分支的特征做concate,然后输入encode,可以节省计算量,减少参数。g和h分别是q和k的起始索引,例如,1表示来自模板图像的token,2表示来自搜索图像的token。对于标准的Transformer模块,要求输入的是token(向量)序列,即二维矩阵[num_token, token_dim],即对图片做分割,详细可参考VIT,Swintransformer。是一个可学习的参数。原创 2023-02-04 17:10:06 · 464 阅读 · 1 评论 -
论文阅读笔记--PULT
给定一个跟踪的实例z,我们首先通过数据扩充操作创建两个z的扩充视图。假设我们每次迭代从E中随机抽取N个对象实例,通过数据扩充,我们在一个小批量中获得2N个增强的跟踪实例。对于每个epoch,我们通过在每个视频的一个随机帧中随机选择12个建议,从F中随机抽样一个基于补丁的训练集E。用对比学习的相似性学习代替传统跟踪器相似性跟踪学习,之后用训练好的网络进行视频跟踪,步骤同SiamFC跟踪相同。原创 2023-02-04 17:06:23 · 159 阅读 · 0 评论 -
论文阅读笔记 -- USOT
分别用训练好的naive track对一定时间区域的同一对象的帧做前向追踪(因为目标可能一段时间后就消失,所以这中方法的可追踪时间就一定会有限制),将得到的一系列的特征图,使用 PrPool来汇集特征,然后用汇集的特征Memory queue与search area做多尺度相关卷积,反向追踪到同一目标。对视频的每一帧使用光流法获得候选框,对得到的候选框进行评分,选择分数最高的作为最终的选择,组成集合B = {Bt | 1 ≤ t ≤ L}。由此,提出了一个很有借鉴意义的训练方式,循环训练。原创 2023-02-04 17:01:22 · 404 阅读 · 1 评论 -
MixFormer论文阅读笔记
质量差的模板会导致较差的跟踪性能,所以,作者选择对模板进行评分,设计了score prediction module (SPM)模板token注意力计算不变(因为它避免了动态搜索区域的影响),搜索token计算将模板和搜索融合后的注意力。原创 2023-02-04 16:57:13 · 398 阅读 · 1 评论 -
pytorch编程函数学习笔记
torch.normal(mean,std,size)返回从单独的正态分布中提取的随机数张量,这些正态分布的平均值和标准差是给定的。张量的size是给定的torch.matmul(x,y)矩阵乘法with torch.no_grad():使用pytorch时,并不是所有的操作都需要进行计算图的生成(计算过程的构建,以便梯度反向传播等操作)。而对于tensor的计算操作,默认是要进行计算图的构建的,在这种情况下,可以使用 with torch.no_grad():,强制之后的内容不进行计算图原创 2023-01-09 05:00:00 · 112 阅读 · 0 评论