![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读笔记
文章平均质量分 94
论文学习
Wils0nEdwards
这个作者很懒,什么都没留下…
展开
-
论文笔记 Enhancing Camouflaged Object Detectors by Generating Camouflaged Objects, ICLR 2024.
图分为两个阶段:Phase I和Phase II,并通过交替训练的方式迭代进行。Phase I中固定检测器(Ds),训练生成器(Gc);Phase II中固定生成器(Gc),训练检测器(Ds)。这张图通过直观的流程图展示了Camouflageator框架的工作机制,说明了如何通过对抗训练生成更难以检测的伪装物体,从而提升伪装物体检测器的性能。每个阶段的具体步骤和优化过程清晰地展示了生成器和检测器的交替训练方式。Camouflageator框架。原创 2024-05-24 18:43:09 · 841 阅读 · 0 评论 -
论文笔记 Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
通过以上设计,PVT不仅能够替代CNN骨干,还能在各种视觉任务中提供更好的性能,特别是在需要高分辨率和多尺度特征的任务中。通过以上贡献,PVT不仅解决了传统Transformer在密集预测任务中的困难,还在多个任务中展现出优越的性能,证明了其作为新型视觉骨干网络的潜力。PVT的设计使得其在资源消耗、灵活性和性能方面均具有显著优势。PVT模型被分为四个阶段,每个阶段由一个补丁嵌入层和若干个Transformer编码器层组成。原创 2024-05-24 14:01:26 · 1007 阅读 · 0 评论 -
Mamba论文笔记
状态空间模型(State Space Model, SSM)是一种数学模型,它可以用来描述一个系统在时间序列上如何演化。在序列建模任务中,状态空间模型通常用来预测或分析一系列时间点上的观测数据。想象你在看一部电影,电影中的每一帧都可以看作是一个观测点,而整部电影就是一个序列。状态空间模型就好比一个导演,根据电影的情节来决定下一帧画面应该是什么样子。状态(State):在我们的电影比喻中,状态好比是隐藏在幕后的故事线,它包含了电影情节的核心信息,但观众并不能直接看到。原创 2024-04-15 17:40:15 · 1087 阅读 · 0 评论 -
RetinalNet论文笔记
当然,这篇论文主要研究了一种新的损失函数——焦点损失(Focal Loss),用以改进单阶段目标检测器在处理极端类别不平衡情况时的性能。实验表明,在训练密集检测器(dense detectors)时,由于遇到的大类别不平衡问题,易分类的负样本占据了交叉熵损失的大部分并主导了梯度。而权重因子ααα虽然平衡了正负样本的重要性,但它没有区分简单和困难的样本。因此,作者提出重新塑造损失函数以降低易分类样本的权重,从而更加集中于训练难分类的负样本。焦点损失通过添加一个调节因子1−ptγ1−pt。原创 2024-04-13 23:51:47 · 1282 阅读 · 1 评论 -
SPP论文笔记
这篇论文讨论了在深度卷积网络中引入空间金字塔池化(SPP)层的方法,以解决传统深度卷积网络需要固定图像尺寸的限制。以下是论文各部分的总结:论文指出现有的深度卷积神经网络(CNN)需要固定大小的输入图像,这一需求限制了图像的比例和尺度,可能会影响识别的准确性。为了解决这个问题,作者提出了一种新的网络结构——SPP-net,该网络通过空间金字塔池化层来生成固定长度的输出,使得网络可以处理任意尺寸的图像。这一部分详细介绍了空间金字塔池化(SPP)层的概念和实现。SPP层位于最后一个卷积层之后,通过不同级别的池化区原创 2024-04-13 23:51:39 · 846 阅读 · 0 评论 -
Attention Is All You Need
介绍了在提出Transformer模型之前,主流的序列转换模型是基于复杂的循环神经网络(RNN)或卷积神经网络(CNN),这些模型通常包含编码器(encoder)和解码器(decoder)。在性能最佳的模型中,编码器和解码器通过注意力机制(attention mechanism)连接。然而,作者提出了一种新的网络架构——Transformer,它完全基于注意力机制完全摒弃了循环和卷积操作。原创 2024-04-11 23:36:25 · 745 阅读 · 0 评论 -
Vision Transformer论文精读笔记 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
核心观点:在视觉方面,注意力机制对卷积神经网络 (CNN) 的依赖是不必要的,直接应用于图像 patch 序列的纯 Transformer 可以很好地完成图像分类任务。当对大量数据进行预训练并传输到多个中型或小型图像识别基准(ImageNet, CIFAR-100, VTAB等)时,Vision Transformer (ViT)与最先进的卷积网络相比获得了出色的结果,同时需要更少的计算资源进行训练。原创 2024-04-10 22:03:03 · 342 阅读 · 0 评论 -
Vision Mamba 论文学习精读笔记 Efficient Visual Representation Learning with Bidirectional State Space Model
总结了论文中提出的Vision Mamba(Vim)模型的动机、设计以及其在视觉任务上的表现。首先,指出了状态空间模型(SSM)在长序列建模方面的潜力,尤其是Mamba模型在硬件效率方面的优势。纯粹基于 SSM 构建高效且通用的视觉 backbone 是一个有吸引力的方向。然后提到,尽管在视觉数据表示上存在挑战,例如视觉数据的位置敏感性和视觉理解对全局上下文的需求,但作者成功地展示了不必完全依赖自注意力机制来学习视觉表示。文章介绍了Vim模型,这是一种新的通用视觉基础模型,它利用双向Mamba块(原创 2024-04-11 17:33:50 · 2893 阅读 · 1 评论 -
Path Aggregation Network for Instance Segmentation
作者提出了路径聚合网络(PANet),旨在增强基于提议的实例分割框 (proposal-based instance segmentation framework) 中的信息流动。具体来说,通过自底向上的路径增强,加强了整个特征层次结构,使得底层的准确定位信号能够加速传播到最顶层的特征。此外,文章提出了自适应特征池化机制,它连接了特征网格和所有特征层次,使得每一层的有用信息都能直接传播到后续的提议子网络中。为了进一步改进掩模预测,还创建了一个补充分支,用以捕捉每个提议的不同视角。原创 2024-04-10 22:04:28 · 1074 阅读 · 0 评论 -
SE注意力模块学习笔记《Squeeze-and-Excitation Networks》
卷积神经网络建立在卷积运算的基础上,通过在局部感受野内融合空间信息和通道信息来提取信息特征。为了提高网络的表示能力,最近的几种方法显示了增强空间编码的好处。作者专注于通道关系,并提出了一种新的架构单元,称之为“挤压-激励”(SE)块,该单元通过明确建模通道之间的相互依赖性自适应地重新校准通道级别(channel-wise )的特征响应。作者证明,通过将这些块堆叠在一起所构建的 SENet 架构,在具有挑战性的数据集上泛化得非常好。原创 2024-03-26 22:05:13 · 1444 阅读 · 0 评论 -
AlexNet论文学习笔记和模型代码
AlexNet有6000万个参数和65万个神经元,由5个卷积层组成,其中某些卷积层其后紧跟最大池化层,还有3个全连接的层,最后是1000路softmax。为了使训练更快,作者使用了非饱和神经元(ReLU激活函数)和一个非常高效的GPU实现卷积操作。为了减少全连接层的过拟合,作者采用了论文发表时不久之前所被提出的一种称为“dropout”的正则化方法,该方法被证明非常有效。原创 2024-03-26 20:19:43 · 1009 阅读 · 0 评论 -
DenseNet《Densely Connected Convolutional Networks》
最近的研究表明,如果卷积网络在靠近输入和接近输出的层之间包含更短的连接,那么卷积网络可以更深入、更准确、更有效地训练。在本文中,作者接受了这一观察结果,并引入了密集卷积网络(DenseNet),它以前馈方式将每一层连接到其他每一层。传统的LLL层卷积网络有LLL个连接——每一层和它的后续层之间有一个连接,而作者提出的网络有LL122LL1个直接连接。这张配图,HHH表示的是由批量归一化(BN)、ReLU激活函数和卷积层(Conv)组成的非线性映射层。原创 2024-03-22 17:00:30 · 1060 阅读 · 0 评论 -
ResNet《Deep Residual Learning for Image Recognition》
残差连接最核心的地方是就是说 resnet 是结合了和是那些跳过一个或多个层的连接。在本文中,只是执行,其输出被添加到堆叠层的输出中。连接既不增加额外的参数,也不增加计算复杂度。整个网络仍然可以通过反向传播的SGD进行端到端训练。下面这个残差块中,旁边的分支首先是一个,而在这个之上,执行了将输入恒等映射到输出端,并与进行相加。原创 2024-03-21 20:25:47 · 654 阅读 · 0 评论