m0_53789001-CSDN博客

原创论文阅读记录——PVT

虽然卷积神经网络(cnn)在计算机视觉方面取得了巨大的成功，但本研究研究了一个更简单、无卷积的骨干网络，可用于许多密集预测任务。与最近提出的专门用于图像分类的视觉变压器(ViT)不同，我们介绍了金字塔视觉Transformer(PVT)，它克服了将Transformer移植到各种密集预测任务中的困难。与目前的技术相比，PVT有几个优点。

2024-04-03 16:46:18 867

原创论文阅读记录——STARK

在本文中，我们提出了一种以转换器为关键元件的跟踪结构。编码器对目标物体和搜索区域之间的依赖关系进行建模，而解码器学习来预测目标物体的空间位置。我们的方法将对象跟踪转换为问题，而不使用任何建议或预定义的锚。使用编码器-解码器转换器，对象的预测只使用一个简单的全卷积网络，它直接估计对象的角。整个方法是的，不需要任何后处理步骤，如余弦窗口和边界盒平滑，从而大大简化了现有的跟踪管道。

2024-04-03 16:16:55 600

原创论文阅读--DETR(ECCV2020)

CNN + Transformer，端到端，一次预测，二分匹配，匈牙利算法。

2024-03-29 17:54:52 443 1

提出一种新型视觉网络架构CMT，通过简单的结合传统卷积和Transformer，获得的网络性能优于谷歌提出的EfficientNet，ViT和MSRA的Swin Transformer。论文以多层次的Transformer为基础，在网络的层与层之间插入传统卷积，旨在通过卷积+全局注意力的方式层次化提取图像局部和全局特征。简单有效的结合证明在目前的视觉领域，使用传统卷积是提升模型性能的最快方法。基于transformer和卷积神经网络cnn的模型在ASR上已经达到了较好的效果，都要优于RNN的效果。

2024-03-28 08:39:32 490

原创论文阅读——CMT

本文提出了一种新的混合结构CMT，用于视觉识别和其他下游计算机视觉任务，如目标检测和实例分割，并解决了在计算机视觉领域以野蛮力方式使用变压器的局限性。所提出的CMT结构利用cnn和变压器来捕获局部和全局信息，提高了网络的表示能力。

2024-03-26 20:36:11 1104

原创论文阅读笔记—GRM（Transformer）

本文提出的方法是一种基于注意力的变压器跟踪关系建模的广义公式，它继承了以前的两流和单流管道的优点，同时通过选择适当的搜索令牌与模板令牌交互，实现了更灵活的关系建模。大量的实验表明，我们的方法优于双流和单流管道，并在六个具有实时运行速度的具有挑战性的基准测试中实现了最先进的性能。很大比例的搜索tokens仍然始终参与与模板的交叉关系建模，这可能导致次优的特征聚合，因为当特征表示没有足够的区别性时，就会涉及不希望的交互。双流跟踪器分别提取模版和搜索区域的特征，然后以顺序的方式建模模版和搜索区域的交叉关系。

2024-03-21 17:53:36 1024

原创 dell G3 3579安装双系统ubantu

点击“便捷启动”，然后再弹出的菜单中依次选择“写入新的驱动器引导扇区”，再选择“Syslinux”，先格式化再写入。等待写入u盘完成即可。当看到这几行的时候，基本就稳了，选择第一个，回车进入ubantu，第三个是进Windows系统。四、重启电脑，猛敲F2进入bios，设置完成后点击apply，再点击exit退出，等待重启。三、打开电脑的磁盘管理，右键点击最后一个盘，压缩卷至少40个G，压缩完成后显示未分配。二、制作启动u盘，安装Ultraiso，将下载好的镜像刻录到u盘，软件下载如图。

2023-10-27 15:24:03 860 1

m0_53789001的博客