论文阅读笔记
文章平均质量分 61
论文阅读笔记
我来了!!!
这个作者很懒,什么都没留下…
展开
-
ViT:AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE论文阅读笔记
利用卷积操作将224*224的图片分割成14*14个大小为16*16的patch。具体操作为 利用num_dim个窗口大小为16*16,步长也为16的卷积核进行卷积,得到14*14*num_dim的特征图,而后进行reshape操作成196*num_dim的向量。一共组成197个维度为num_dim向量。再通过多头注意力机制捕获不同patch之间的关系,这个过程中,token cls会收集其他token的信息。输入为一张大小为224*224的图片,将图片分成14*14个大小为16*16的patch。原创 2023-03-30 17:08:04 · 58 阅读 · 0 评论 -
MAT: Mask-Aware Transformer for Large Hole Image Inpainting论文阅读笔记
卷积头主要由四个卷积层构成,其中一个卷积层用于改变输入的维度,其他三个卷积层进行下采样操作。更新规则: 只要当前窗口有一个token是有效的,经过注意力后,该窗口的所有token都会更新为有效的。① 删除Layer Normalization层归一化:在大面积缺失的情况下,大部分的token是无效的,层归一化会放大这些无效token。②删除残差连接,改为concat:残差连接鼓励模型学习高频信息,在训练初期,没有低频的基础,很难直接学习高频细节。②提出多头上下文注意力模块,只对有效的token进行计算。原创 2023-03-30 12:00:38 · 1027 阅读 · 3 评论 -
Masked Autoencoders Are Scalable Vision Learners(MAE)论文阅读笔记
同样,编码器结构也是利用ViT进行搭建,但不同的是,MAE的编码器只应用于可见的(没有隐蔽)的patch,将可见的patch进行token embbeding,然后通过一系列的Transformer块的处理。像所有的Auto encoder一样,MAE利用编码器将观察到的信号映射到一个潜在的表示,再利用解码器,从潜在的表示重构原始信号。Decoder模块只存在于预训练的重建图像任务中,因此可以独立于encoder去设计decoder,文中采用轻量级的decoder,即Transformer块的数量更少。原创 2023-03-30 12:01:14 · 100 阅读 · 1 评论 -
Distillation-guided Image Inpainting论文阅读笔记
利用AN网络中的特征(教师)来监督IN网络中的特征(学生),但并非通过特征差来进行特征级监督,而是通过一些简单的卷积层r进行转换,再进行特征差的计算。编码器中的Adaptive Completion Block:作者认为encoder层的主要任务有两个:提取未失真区域的信息 和 进行孔洞填充。而后以知识蒸馏的方式,其中AN作为教师模型,IN作为学生模型,利用AN对IN进行特征监督,以此对失真图像进行重建。利用IN网络中深层特征(教师)来监督其浅层网络的特征(学生),与交叉蒸馏的机制大抵一致。原创 2023-03-13 18:49:43 · 75 阅读 · 1 评论 -
LIGHTWEIGHT IMAGE INPAINTING BY STRIPE WINDOW TRANSFORMER WITHJOINT ATTENTION TO CNN论文阅读笔记
- ICCV 2021-本文主要工作:①提出了一种具有有效的局部增强位置编码的条带窗口自注意变压器 ②结合全局层和局部层的注意力 ③提出了一种新的HSV损失以增强颜色一致性- 网络结构 如上图所示,给定一张256x256的失真图像和二进制mask并concat,输入到三个下采样的卷积层后,进行通道分割。一部分通道经过上半部分的“全局层”,即CSWI原创 2023-03-28 17:35:24 · 142 阅读 · 1 评论 -
High-Fidelity Pluralistic Image Completion with Transformers论文阅读笔记
由于卷积神经网络(CNN)具有强大的纹理建模能力,因此CNN在图像修复领域上取得了巨大的进展。但,由于CNN的一些固有属性(local inductive prior 局部归纳先验,spatial invariant kernels空间不变核),其不能很好的理解全局特征。最近,transformer展示了其在long-term关系模型建立和产生多样化结果的强大能力,但是其计算复杂度与输入长度成二次平方比的。原创 2023-03-13 17:24:05 · 205 阅读 · 1 评论 -
Parallel Multi-Resolution Fusion Network for Image Inpainting论文阅读笔记
整个网络分成四个分支进行,对应四个不同的分辨率,从上往下依次为256*256, 128*128,64*64,32*32。具体来说,首先将特征图从高分辨率(256,128,64)下采样到最低分辨率(32),再及逆行concat拼接,而后利用自注意力机制计算注意力分数图A。Ig为最终的输出结果。其中l的取值范围为{3,2,1,0}分别代表四个不同的分辨率{256*256,128*128,64*64,32*32}.其中m是当前像素p的mask value,sum(Mp)是当前窗口的值之和,q是需要定义的优先级。原创 2023-03-30 12:03:23 · 146 阅读 · 1 评论 -
Zero-DCE:Learning to Enhance Low-Light Image via Zero-Reference Deep Curve Estimation论文阅读笔记
其中,每个输入的像素都会在输入之前被归一化至0-1.X代表像素坐标 ,等式左端代表增强后的图像,a为可训练的参数,其取值范围在-1~1之间用来调整LE曲线的峰值和控制曝光等级,如下图所示。从图中可以看到,当进行四次迭代的时候,该曲线的曲率已经非常大,因此它具有较强的动态范围条件能力。这样的二次曲线在一些比较挑战性的场景例如非常暗的环境下的调节能力是有限的。网络结构由七个卷积层组成。受照片编辑软件中曲线调整的启发,设计了一种可以自动将弱光图像映射到增强图像的曲线,其中自适应曲线参数完全取决于输入图像。原创 2023-04-05 20:37:48 · 181 阅读 · 0 评论 -
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention论文阅读笔记
②feature shift实现的local attention:以2*2的特征图为例,按照左上,上,右上,左,中,右,左下,下,右下的方式移动特征图窗口。③作者提出的利用Depthwise实现的local attention:以2*2的特征图为例,先进行padding,而后通过不同的固定权重的3*3的窗口得到九个不同的特征,再生成键值对。①im2col实现的local attention:以2*2的特征图为例,先进行padding,而后通过3*3的滑动窗口得到H*W个窗口值,再进行展平,得到键值对。原创 2023-04-17 16:25:31 · 989 阅读 · 2 评论