自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 0.4 操作符重载与临时对象

1.operator overloading (操作符重載-1, 成員函數) this写成class类的成员函数。 2部分中也会有全域函数(global)实际上隐含了this,谁调用谁就是this2.return by reference 語法分析传递着无需知道接收者是以reference形式接收。3.class body 之外的各種定義 (definitions)这是一个全域函数,通过参数引用传递。4.operator overloading...

2022-03-28 20:13:00 166

原创 DN-DETR 2022

【DN-DETR: Accelerate DETR Training by Introducing Query DeNoising】DETR收敛速度慢的原因是二部图匹配算法的不稳定性,导致早期训练阶段的优化目标不一致。提出一种新颖的去噪训练方法加快收敛,并使效果更好。在训练过程中引入查询去噪任务来帮助稳定二部图匹配。我们将带噪声的地面真值边界框作为带噪声的查询与可学习的锚点查询一起馈送到变压器解码器中。对于有噪声的查询,我们执行去噪任务来重建它们对应的地面真值框;对于其他可学习的anchor que

2022-03-28 12:24:48 1022

原创 DINO:2022.3_SOTA_COCO_DETR

通过使用一个对比的方式为了去噪训练,一个混合的query选择方法为了anchor初始化,和一个向前看两次的方案为了box预测。DINO在模型大小和数据大小上表现出良好的可扩展性,用SwinL backbone在Object365大数据集预训练,达到了COCO val2017 63.2AP 和 test-dev 63.3AP。SOTA in 2022.3IntroductionDETR的主要问题是收敛慢和query的意义是不明确的。目前在最好的检测器当前还是经典的检测器,Dyhead、HTC等

2022-03-26 19:31:25 6139

原创 【Linear Attention Mechanism: An Efficient Attention for Semantic Segmentation】CVPR2020

提出了一种线性注意力机制,与点乘注意力机制近似,但使用更少的内存和计算损耗。

2022-03-20 09:53:03 1001

原创 【Luna: Linear Unified Nested Attention】2021

线性统一嵌套注意力。用两个嵌套的线性注意力函数近似softmax attention,只产生线性(而不是二次)的时间和空间复杂性。Luna引入了一个固定长度的额外的序列作为输入,对应着一个额外的输出,寻允许Luna线性的进行注意操作,同时还存储足够的上下文信息。...

2022-03-19 15:14:43 596

原创 【Efficient Attention: Attention with Linear Complexities】WCAV2021

由于矩阵乘法是关联的,将顺序从切换到对效果没有什么影响,但可以将复杂度从O(n^2)到O(dk*dv),使其复杂度成为线性。在实际情况下,dk*dv明显小于n^2。这种方法被文章称为”efficient attention“。新机制在数学上等价于尺度归一化的点乘注意力,近似于softmax归一化的点乘注意力。实验证明,当近似相等时并不影响准确率。另外,实验表明它的效率允许将更多的注意力模块集成到网络中,并集成到网络的高分辨率部分中,这将导致更高的准确率。此外,实验还表明,有效的注意力可以将注意力..

2022-03-18 21:47:16 3691 4

原创 【Linformer:Self-Attention with Linear Complexity】

论文中,展示了自注意力机制可以被一个低秩矩阵近似,利用这一发现提出了新的自注意力机制,将空间与时间计算复杂度降低到O(n)。作者发现自注意力是低秩的,通过线性投影将原本的点乘注意力分解为多个较小的注意力,使这些运算的组合形成原始注意力的低秩因式分解。下表是不同transformer架构的复杂度汇总:理论:自注意力机制矩阵,context mapping matrix P,是低秩的。左边的图,将奇异值分解在不同的层和头运用到P, 画出每10K个句子的归一化累积奇异值平均值,结果显示

2022-03-18 12:54:22 2504

原创 Anchor DETR

Anchor DETR: Query Design for Transformer-Based Detector(2021.9)1.DETR的object query是学习的,没有物理意义也不能解释每个query注意哪。作者认为学习出来的object query不能关注特定的区域。本文提出来,object query的是基于anchor point的,这种设计下,每个object query只关注anchor点周围的目标,另外,每个object query可以在一个位置上预测多个目标(多模式)。

2022-03-03 14:37:59 2931

原创 【Cross-attention in DETR】

Cross-attention Module理解

2022-03-01 20:17:44 5288

原创 【Positional embedding】

Positional embedding本文归纳了transformer-based的模型中的positional-embedding。首先明白第一点:Q: Why need positional embedding in Transformer?A: 跟 CNN/RNN 不同,self-attention并不会记录位置信息。位置编码可以使self-attention记忆位置信息。Transformer’s positional embeddingAttention Is All You Ne

2022-03-01 17:01:59 2737

原创 分组卷积conv2d

groups数需要整除 in_channels, out_channels

2022-02-28 13:37:36 134 1

原创 ResNet-18結構

残差块⾥⾸先有 2 个有相同输出通道数的 3 × 3 卷积层。每 个卷积层后接⼀个批量归⼀化层和 ReLU 激活函数。然后我们通过跨层数据通路,跳过这 2 个卷积运算,将输⼊直接加在最后的 ReLU 激活函数前。这样的设计要求 2 个卷积层的输出与输⼊形状⼀样,从而可以相加。 如果想改变通道数,就需要引⼊⼀个额外的 1 × 1 卷积层来将输⼊变换成需要的形状后再做相加运算。import torchfrom torch import nnfrom torch....

2022-02-27 23:09:54 5513

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除