顶会顶刊论文
文章平均质量分 95
像风一样自由的小周
这个作者很懒,什么都没留下…
展开
-
Pyramid Scene Parsing Network–CVPR,2017论文解读及其pytorch代码
现阶段随着数据集制作精细化、标签种类变多、具有语义相似标签等导致出现一些困难样本,使得经典的语义分割网络无法很好的处理(如FCN,作者认为FCN缺乏合适的策略去利用全局场景类别线索)这些困难样本。如下,作者挑选了ADE20K数据集中几个具有代表性的困难样本,第一行因为FCN没有正确捕获图像内容之间的关系,错误的将外形和汽车相似的游艇识别为汽车,要是能够正确识别出其在水面上就能够避免这种错误;第二行是因为FCN没有捕获类别之间的关系导致遇到相似的类别。原创 2023-09-14 17:17:36 · 381 阅读 · 0 评论 -
Context Prior for Scene Segmentation--CVPR, 2020
问题:现阶段,不少语义分割方法所限于卷积结构,忽略了同类型的上下文之间的关系,但同一类别的相关性(类内上下文)和不同类之间的差异(类间上下文)使得特征表示更加鲁棒并减少可能类别的搜索空间。目前主要有两种改进方式:1.Pyramidbased aggregation method. 这类方法重视类内关系、忽视了类间关系。从而在困难样本上效果较差。原创 2023-06-15 17:24:22 · 843 阅读 · 0 评论 -
Vision Transformers for Dense Prediction论文笔记
本篇论文主要提出一种网络,基于Transformer去进行密集预测。众所周知,对于密集预测任务,常见的网络架构为Encoder+Decoder结构。当Encoder提取的特征有损时,Decoder很难去进行恢复。但是目前常用的卷积网络架构常常使用下采样方式,**逐步增加感受野,将低级特征分组为抽象的高级特征,同时确保网络的内存和计算需求保持易于处理。**但是,下采样有一个明显的缺点,特征分辨率和粒度(我感觉这里的粒度像是细粒度特征)在模型的更深层特征丢失,在Decoder中难以恢复。原创 2023-04-14 09:29:56 · 1547 阅读 · 0 评论 -
ViT笔记以及其Pytroch实现
目前在NLP领域,transformer已经占据主导地位。不少学者尝试将attention和CNN相结合,这些方法往往依赖于CNN,其性能相较于常见的卷积网络如ResNet等还是有差别。在NLP领域,使用transformer时,当不断增加模型大小和数据集数量,模型性能没有出现饱和趋势。同样的在CV领域,当数据量较小时,使用transformer有时并不比常见卷积性能好。但当数据集数量不断变大,transformer性能不断提高,甚至超过常见卷积模型。本片论文介绍的方法主要是用来进行分类的。原创 2023-04-06 10:33:15 · 782 阅读 · 0 评论 -
Rethinking Channel Dimensions for Efficient Model Design论文笔记
这里我认为是指的网络第一层的卷积层指的是模型训练中需要训练的参数总数,这里我们应该知道卷积网络中如果每一层的输出或输入通道数变多,相应的模型的参数总数也会变多。浮点数运算次数,理解为计算量,可以用来衡量算法的复杂度。一个乘法或一个加法都是一个FLOPs(注意:这里的S是大写)每秒浮点运算次数,理解为计算速度,是一个衡量硬件性能的指标。指的是输出通道数比上输入通道数。这是网络提出的一个结构。网络结构如下:这个和常见的残差模块不同地方在于中间层的通道数大于两侧的通道数,即中间宽两边窄。原创 2023-03-22 09:35:35 · 322 阅读 · 0 评论 -
长尾分布论文笔记:BBN
1.网络结构图作者已经发现使用re-balancing方法可以提高模型性能,但是使用该方法会导致特征提取层模型性能下降。故作者想要结合这两个方法的优势,来进一步提高模型性能。作者的办法是使用一种累计学习策略,先学习通用模式,然后逐渐关注尾部数据。这里简单介绍一下这个网络的流程。首先通过两个部分共享的双分支网络,输入一个是具有长尾分布的数据集xcyc(x_c,y_c)xcyc,另一个是通过reverse操作后的数据集xryr(x_r,y_r)xryr。原创 2023-03-02 16:01:15 · 2059 阅读 · 2 评论 -
论文笔记:How transferable are features in deep neural networks? 2014年NIP文章
许多在自然图像上训练的深度神经网络都表现出一个奇怪的共同现象:在第一层,它们学习类似于Gabor过滤器和color blobs的特征。这样的第一层特征似乎并不特定于特定的数据集或任务,而是通用的(论文中简称general),因为它们适用于许多数据集和任务。而最后一层提取到的特征很大程度上取决于选定的数据集和任务(论文中简称specific)。从上述现象我们便可以假设有这个结论:一定有一个类似于阈值的层数,当少于这个层数便不受任务和数据影响,大于这个层数便受任务和数据影响。原创 2023-02-22 22:46:13 · 953 阅读 · 0 评论 -
ResNet简单介绍+Pytroch代码实现
当网络层数越来越深时,模型性能不如层数相对较少的模型。这将不利于构建更深的模型。现阶段有采用BatchNorm层来缓解梯度消失或者爆炸,但效果并不明显。训练集上就出现了退化情况,故不是过拟合导致。按道理,给网络叠加更多层,浅层网络的解空间是包含在深层网络的解空间中的,深层网络的解空间至少存在不差于浅层网络的解,因为只需将增加的层变成恒等映射,其他层的权重原封不动copy浅层网络,就可以获得与浅层网络同样的性能。更好的解明明存在,为什么找不到?找到的反而是更差的解?原创 2023-02-02 17:26:32 · 947 阅读 · 0 评论 -
自监督学习UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING IMAGE ROTATIONS论文笔记
关于自监督部分内容参考Self-supervised Learning 再次入门和知乎微调大佬的回答什么是无监督学习。原创 2022-12-27 15:15:29 · 1718 阅读 · 0 评论 -
深度学习常见损失函数总结+Pytroch实现
均方差损失(MSE)也称为L2损失,其数学公式如下:JMSE=1N∑i=1N(yi−yi‘)J_{MSE}=\frac{1}{N}\sum_{i=1}^{N}{(y_i-y_i^{`})}JMSE=N1i=1∑N(yi−yi‘)在模型输出与真实值的误差服从高斯分布的假设下,最小化均方差损失函数与极大似然估计本质上是一致的。至于啥模型输出与真实值的误差服从高斯分布,这个还真的难说,极大似然估计是概率论中用来近似计算真实分布中的参数的一种方法。Pytroch官方文档如下:官方文档介绍:size原创 2022-11-28 22:53:37 · 2056 阅读 · 0 评论 -
Pixel Difference Networks for Efficient Edge Detection论文笔记
的结果可以看出,如果只选择某一个卷积(PDC的三个卷积)放入Block_x_y中得到的结果并不是很理想,作者的解释是每一个stage中的第一个块中的PDC已经从原始图像中获得了很多梯度信息,滥用PDC甚至可能导致模型无法保留有用的信息。然而,一旦卷积核已经学习完毕,就可以根据所选像素对的位置,通过保存模型中和权重的差异,将PDC层转化为普通卷积。以这种方式,便可以在。现阶段,虽然使用CNN构建的网络可以获得和人类一样的边缘检测能力,但是基于CNN的边缘检测的高性能是通过大型预训练的CNN主干实现的,这既。原创 2022-11-23 11:05:29 · 1595 阅读 · 6 评论 -
预训练+微调+Rethinking ImageNet Pre-training论文阅读笔记
近期在阅读何凯明大神的Rethinking ImageNet Pre-training论文,论文中对比了深度学习提分小trick——pre-training和随机初始化之间对于任务性能的差别,实验证明预训练仅提高收敛速度但不能提高模型性能,同时预训练也不能防止过拟合。这就比较有意思了,正好我对预训练还有些不了解,正好趁着这个机会整理一下。原创 2022-11-17 11:14:50 · 1343 阅读 · 2 评论 -
论文笔记:Multi-scale Matching Networks for Semantic Correspondence
举一个计算对应关系的例子,图片A、B的特征图为FA、FB,大小均为(h,w),那么对应的4D correlation map大小为(h,w,h,w),任取图片A上一点a,对应的特征图FA上的点为Fa,那么Fa一个点便和FB一张图进行对应,利用一定的规则如点与点之间的距离作为衡量标准,那么取FB上距离Fa距离最小点Fb变为Fa的对应点。然后,根据ANC - Net,我们选择它的四个最近邻,并根据距离设置它们的概率,以建立每个尺度上的二维真值匹配概率。关于细节和公式论文中说的很细,这里不再介绍。原创 2022-10-28 11:22:44 · 808 阅读 · 1 评论 -
数据增强:AlignMixup: Improving Representations By Interpolating Aligned Features阅读笔记
故需要进行两幅或者多幅图像的融合,当仅使用mix进行混合时仅仅只是图片简单的堆叠且得到的图片很不自然,如果采用随机混合会导致模型学习到不相关的特征(因为label也随之变化,由于混合是随机的便会导致得到的label可能不包含我们所需要的特征,训练时用label进行约束便会导致学习到不相关的特征)。下图算法讲的便是实验采用的算法,实验主要针对的是单个输入,这就导致不好使用对齐混合,作者在这里才用的是对于单个图片或者特征随机打乱其通道位置,这样便得到了多个输入。源码中也没有看到clean模式的使用。原创 2022-10-12 20:34:46 · 1786 阅读 · 0 评论 -
Registration based Few-Shot Anomaly Detection阅读笔记
本文考虑了少镜头异常检测(FSAD),这是一种实用但研究不足的异常检测(AD)设置,其中在训练时仅为每个类别提供有限数量的正常图像。到目前为止,现有的FSAD研究遵循用于标准AD的每类学习范式的一个模型,并且尚未探索类别间的共性。受人类如何检测异常(即将有问题的图像与正常图像进行比较)的启发,我们在这里利用配准,这是一种在类别间具有普遍性的图像对齐任务,作为代理任务,来训练一种类别无关的异常检测模型。在测试过程中,通过比较测试图像及其相应支持(正常)图像的注册特征来识别异常。原创 2022-09-23 22:19:19 · 2443 阅读 · 3 评论