论文学习
文章平均质量分 80
Diros1g
Cver Cyclists CPDD
展开
-
RetinaFace: Single-stage Dense Face Localisation in the Wild
简单的来说就是backbone+FPN+SSHRetinaFace使用的是MobileNetV1-0.25 or Resnet50Resnet50经过测试检测速度激活时mobile的2倍,所以我们在实验的过程中使用的时MobileNetV1-0.25,MobileNetV1-0.25就是在MobileNetV1的基础对每一层卷积核的通道数缩减到原来的四分之一。最后我们取骨干网络最后三层的特征C3、C4、C5作为FPN的输入,这三层feature map的大小并不是固定的,因为MobileNetV1的可以接原创 2022-07-13 13:07:49 · 284 阅读 · 0 评论 -
Learning What Not to Segment: A New Perspective on Few-Shot Segmentation学习笔记
cvpr2022extension://bfdogplmndidlpjfhoijckpakkdjkkil/pdf/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F2203.07615.pdfOne-Shot Learning for Semantic Segmentation学习预处理数据集DADA;学习网络结构NAS训练样本中的训练集一般称作support set,训练样本中的测试集一般叫做query set。普通的机器学习是规定好了映射方式,然后通原创 2022-07-06 13:54:36 · 1283 阅读 · 0 评论 -
Human Pose Estimation浅述
0.摘要在实际求解时,对人体姿态的估计常常转化为对人体关键点的预测问题,即首先预测出人体各个关键点的位置坐标,然后根据先验知识确定关键点之间的空间位置关系,从而得到预测的人体骨架。姿态估计问题可以分为两大类:2D姿态估计和3D姿态估计。顾名思义,前者是为每个关键点预测一个二维坐标 (x,y) ;后者是为每个关键点预测一个三维坐标 (x,y,z) ,增加了一维深度信息。1. 2D姿态估计对于2D姿态估计,当下研究的多为多人姿态估计,即每张图片可能包含多个人。解决该类问题的思路通常有两种:top-dow原创 2022-06-21 16:00:28 · 287 阅读 · 0 评论 -
知识蒸馏之Distilling the Knowledge in a Neural Network
Geoffrey Hinton, Oriol Vinyals, Jeff DeanNIPS20140.摘要两种路线:1.单独训练特异性的模型,然后将这些模型合在一起2.用强大的正则化器训练一个模型1.算法思想知识蒸馏的主要思想是训练一个小的网络模型来模仿一个预先训练好的大型网络或者集成的网络。这种训练模式又被称为 “teacher-student”,大型的网络是“老师”,小型的网络是“学生”。在知识蒸馏中,老师将知识传授给学生的方法是:在训练学生的过程中一个以老师预测结果的概率分布为目标的损原创 2022-05-16 18:04:09 · 213 阅读 · 0 评论 -
目标检测之TOOD:Task-aligned One-stage Object Detection
ICCV211.背景One-stage的目标检测是对目标的分类和定位进行同时进行,这种目标检测有两个平行分支的头部,这可能会导致两个任务之间的预测出现一定程度的空间错位。现有的单阶段方法都通过一定的手段来实现两个任务的统一,也就是使用目标的中心点。最近的单级物体探测器试图通过聚焦物体的中心来预测两个独立任务的一致输出。位于物体中心的锚(无锚探测器的锚定点,或基于锚的探测器的anchor-box)可能会对分类和定位给出更准确的预测 。如 FCOS/ATSS 都使用 centerness 分支来提高在物原创 2022-04-12 16:17:20 · 1909 阅读 · 0 评论 -
目标检测ReXnet:Rethinking Channel Dimensions for Efficient Model Design
摘要cvpr2021作者从秩的角度出发,改进了网络。作者提出的一个设计原则:1.知识储备扩张层: 如果某个层的输出通道数(秩)大于输入通道数(秩)收缩层: 如果某个层的输出通道数小于输入通道数秩秩是图像经过矩阵变换之后的空间维度秩是列空间的维度。维度是完全正交(独立)特征种类的个数。秩越高的矩阵内容越丰富,冗余信息越少。秩越低的矩阵废数据越多。Softmax Bottleneck:分类函数是损失函数是,是交叉熵函数,其取值范围会受输入的影响。2.当前网络的问题2.1扩张层中的表达瓶原创 2022-03-25 17:46:19 · 4185 阅读 · 0 评论 -
目标检测之SSD:Single Shot MultiBox Detector
Single Shot MultiBox Detector论文学习single shot指的是SSD算法属于one-stage方法,MultiBox说明SSD是多框预测。ssd和yolo都是一步式检测器,yolov1的一个缺点就是不擅长做小目标识别,ssd正好克服了这个问题,ssd的一个优势就是准确率高,但ssd512版本fps比yolo低。1.采用多尺度特征图用于检测卷积神经网络一般是个金字塔结构,前宽后窄,所以在不同的阶段就可以得到一些比较大的特征图和一些比较小的特征图,思路和spp差不多。一原创 2022-03-11 20:24:14 · 6843 阅读 · 3 评论 -
Yolo家族论文阅读笔记
You Only Look Once: Unified, Real-Time Object Detection学习笔记YOLO的核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box的位置和bounding box所属的类别。抓取bbox步骤:1.输入图像分成S×S的网格。现在是划分成了7*7的,如果物品的中点落在某一个网格单元,这个网格单元将负责识别出这个物体。注意只是看该目标的中心点,而不是整体。比如A(2,3)是狗的中心点,那么A就负责来负责预测狗2.每个网格自身也原创 2022-03-11 20:22:03 · 4339 阅读 · 0 评论 -
图像超分辨率之Is Image Super-resolution Helpful for Other Vision Tasks?
0.摘要在边缘检测、语义图像分割、数字识别和场景识别四种常用的视觉任务上,对六种SR方法(ANR, A+, SR-CNN, JOR, and SRF)进行了评价。当其他视觉系统的输入图像是低分辨率时,应用SR确实能改善它们的性能。我们还研究了四个标准知觉评价标准(即PSNR、SSIM、IFC和NQM)与SR对视觉任务的有效性之间的相关性。实验表明,它们通常有较好的关联性,但不够精确,不足以作为有用性的证明。本位也是想要把sr放到预处理阶段...原创 2022-03-03 21:44:21 · 371 阅读 · 0 评论 -
目标检测之超分辨率和最近邻插值在卫星目标检测中的应用比较
论文题目A Comparison of Super-Resolution and Nearest Neighbors Interpolation Applied to Object Detection on Satellite Data0.摘要本文也是尝试将分类或目标检测任务与超分辨率(Super-Resolution)的预处理阶段相结合,在相对小的目标上提高精度。他也是通过和最小邻近插值( Nearest Neighbors ,NN)相比较,得到的结论是SR生成的放大图像比NN生成的图像更好看,但目标原创 2022-02-20 17:09:48 · 1044 阅读 · 2 评论 -
目标检测之Dynamic Head: Unifying Object Detection Heads with Attentions
cvpr2021论文:https://arxiv.org/pdf/2106.08322v1.pdf代码:https://github.com/microsoft/DynamicHead1、摘要作者认为目标检测的头部是由三个部分组成:首先,头部应该是尺度感知的,因为多个具有极大不同尺度的物体经常共存于一幅图像中,FPN。其次,头部应该是空间感知的,因为物体通常在不同的视点下以不同的形状、旋转和位置出现,膨胀卷积、可变形卷积。第三,头部需要具有任务感知,因为目标可以有不同的表示形式(例如边界框、中心和角原创 2021-12-21 11:34:59 · 1650 阅读 · 0 评论 -
图像超分辨率之ESPCN(Efficient Sub-Pixel Convolutional Neural Network)
cvpr2016论文下载:Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network代码:https://github.com/leftthomas/ESPCN1.结构ESPCN的核心概念是亚像素卷积层(sub-pixel convolutional layer)。网络的输入是原始低分辨率图像,通过三个卷积层以后,得到通道数为放大倍数**2的与输原创 2023-12-18 14:17:18 · 188 阅读 · 0 评论 -
目标检测之:Mask R-CNN
0.摘要何恺明在提出resnet网络之后,有提出的一个目标检测框架,mask rcnn可以针对各个类别生产相应的掩码,0、1对应检测的背景和检测的目标,所以有着可以语义分割的特性,作者还说它可以进行行为分析。ResNet+FPN+Fast RCNN(RPN)+Mask=Mask rcnn1.回顾Fast RCNNFaster RCNN使用CNN提取图像特征,然后使用RPN去提取出ROI,然后使用ROI pooling将这些ROI全部变成固定尺寸,再给全连接层进行Bounding box回归和分类预原创 2021-11-08 19:46:00 · 2064 阅读 · 0 评论 -
R-cnn家族论文
《Rich feature hierarchies for accurate object detection and semantic segmentation》阅读笔记0.基础知识卷积feature计算W:表示当前层Feature map的大小。K:表示kernel的大小。S:表示Stride的大小。下一层Feature map的大小 =(W−K)/S+11.introductionR-CNN(region with CNN features),即region proposals(候选区原创 2021-11-08 16:21:56 · 3825 阅读 · 0 评论 -
激活函数之Relu家族学习
Relu:Deep Sparse Rectifier Neural Networks论文浅读本文的思想是基于对脑科学的研究,这才是人工神经网络的本质,要基于数学和生物学的研究,而不是炼丹,但是炼丹真香0.知识点补充正则化:L1正则化和L2正则化可以看做是损失函数的惩罚项, 也叫L1范数 和 L2范数,对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,后面那一项才是。使用L2正则化的模型叫做Ridge回归(岭回归),同上后面那个才是dropout:(1) 首先随机(临时)删掉网络中一原创 2021-09-23 14:31:17 · 521 阅读 · 0 评论 -
插值方法学习
0.摘要我感觉上采样阶段要放在特征提取的前期,而不是后期,因为后期的feature map太小了,而且相邻间的像素值会存在突变,会造成增加的噪声概率会比较高。参考图像插值技术综述学习了一下插值方法1.单线性插值法已知ac,求b点位置的过程就是单线性插值,计算过程如下:2.双线性插值双线性插值是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值已知四个q点坐标,先分别求r坐标,再求p点左边就是双线性插值。首先在 x 方向进行线性插值,得到3.样条插值样条:原创 2021-09-06 13:45:17 · 3460 阅读 · 0 评论 -
目标检测之FPN:Feature Pyramid Networks for Object Detection论文学习
0.摘要感觉和我的放大镜原理十分相似,特征金子塔,但是他做的是全局特征级别的,我的是propel、bbox级别。他的目的是充分利用信息,我的目的是针对小目标使用最近邻插值法进行特征扩增解决的问题是目标检测在处理多尺度变化问题是的不足1.特征金字塔1.1多种方式的比较(a). 通过图像金字塔来构建不同尺度的特征金字塔对每一种尺度的图像进行特征提取,能够产生多尺度的特征表示,并且所有等级的特征图都具有较强的语义信息,甚至包括一些高分辨率的特征图。但是有着计算时间长和占用内存高的缺点,而且由于每原创 2021-08-03 17:16:37 · 303 阅读 · 0 评论 -
End-to-End Object Detection with Fully Convolutional Network学习笔记
0.摘要cvpr2021作者提出的是一种新的检测,也可以稍微节约的点时间。思路是基于目前主流的一阶段或者两阶段检测器严重依赖预定义的由滑动窗组成的anchor。由于anchor是人工设计和不依赖数据的(yolo和f-rcnn),anchor-based检测器的训练目标通常是次优的,需要仔细调整超参数。Learnable NMS,Soft-NMS和CenterNet做了很多工作去除重复预测,但仍然没有实现彻底的端到端训练 。由于NMS是一种启发式方法,并对所有实例采用一个恒定的阈值,因此NMS需要仔细原创 2021-07-13 18:02:28 · 443 阅读 · 0 评论 -
可变性卷积(Deformable Convolution network)系列论文学习
Deformable Convolution network0.摘要作者觉得传统的卷积感受野太小了,如果进行pooling减少图片的尺寸,在进行卷积肯定会损失很多信息。可变性卷积和空洞卷积有点类似,从周围的像素点中提取信息。作者一共提供了两种新的方法:可变性卷积和可变性池化1.可变形网络1.1可变形普通卷积和可变性卷积区别(y是输出,p是位置信息,w权重,x输入):在普通卷积的基础上加上偏移量offsets :最终是实现过程是通过双线性插值:反向传播的过程:偏移量是通过卷原创 2021-07-06 10:11:01 · 1814 阅读 · 1 评论 -
SQUEEZENET: 论文学习+实验
0.摘要ICLR 2017squeezenet是高效轻量网络开山之作,提出了三大原则和一个fire模块1.三大原则1.1策略一:用1x1 滤镜替换3x3滤镜因为1x1滤波器的参数比3x3滤波器少9倍。1.2减少3x3 卷积输入通道的数量假设有一个卷积层, 它完全由3x3 卷积组成。此层中参数的总数量为:(输入通道数) * (过滤器数) * (3 * 3)1.3 在网络中延迟下采样的时间, 以便卷积层具有较大的特征图2.Fire Model...原创 2021-07-02 09:34:22 · 155 阅读 · 0 评论 -
轻量型骨干网络之ShuffleNet系列论文学习笔记
ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices0.摘要CVPR:2017年年末1.作者觉得之前的网络都使用很多1*1卷积,所以使用了mobile net中的分组点卷积减少1 x 1卷积的计算复杂度2.mobile net的一个缺点就是深层的特征是不能联通广域的信息,所以使用了channel shuffle,来帮助信息在特征通道中流动1.Shuffle module1.1通道洗牌原创 2021-06-21 20:11:53 · 482 阅读 · 0 评论 -
轻量型骨干网络之GhostNet: More Features from Cheap Operations论文学习
0.摘要在mobilenet ShuffleNet之后,华为推出了自己的轻量化网络,提出ghost模块,思想比较简单,作者觉得反正有很多feature map是特征冗余的,不如直接用基础特征图来制造冗余的feature map。用cheap operation(简单的线性操作)来代替部分卷积运算。作者也用了别的技术来压缩模型:剪枝(神经元)、剪枝(通道)、二值化法、张量分解、知识蒸馏1.模型压缩剪枝连接(Pruning connections)剪掉了神经元之间不重要的连接。通道修剪(Channe原创 2021-06-15 08:35:28 · 654 阅读 · 0 评论 -
知识蒸馏Distilling the Knowledge in a Neural Network论文学习
0.摘要论文的思想很简单:使用teacher_train和student_train配合来进行训练,老师(大模型)负责预训练,把全部知识都学会之后,通过知识蒸馏来增强对负样本的敏感程度,提取暗知识。然后有一定选择性的再教给学生(小模型),因为此时的老师已经知道侧重点。普通的softmax函数只会对正样本比较敏感,对负样本压制的十分凸出:但是很多时候,一组图片所包含的特征是有交集,特征之间不是那么对立的,one-hot式的编码方式太暴力了。所以hinton提出了新的损失函数softtarget(s原创 2021-06-07 17:53:56 · 126 阅读 · 0 评论 -
骨干网络之Inception系列论文学习
0.摘要之前简单的看了一下incepiton,在看完resnext后,感觉有必要再看一看本文改善深度神经网络性能的最直接方法是增加其大小。 这包括增加网络的深度和网络宽度,这样会带来一些缺点:较大的规模通常意味着大量的参数,这使得扩大后的网络更容易过度拟合。增加网络大小的另一个缺点是计算资源的使用急剧增加...原创 2021-06-01 08:23:04 · 587 阅读 · 1 评论 -
Resnext论文学习
0.摘要作者有几种通过思想十分的好值得借鉴:1.vgg和inception等网络中,都是block的组合,这是一种十分简洁的组网方式2.提出了基数的概念:用来和衡量拆分、转换和聚合模块的复杂度论文思路:1.结构类似于inception+resnet2.但是他觉得inception中的block要人工设计太麻烦,而且要很多超参数3.作者觉得他的基数比深度d和宽度w更具体,更可以度量,再深度和宽度饱和后可以使用基数来提高精度(我只认同一半)1.拆分、转换和聚合(split-transform-m原创 2021-05-26 14:57:02 · 187 阅读 · 0 评论 -
骨干网络之DenseNet:Densely Connected Convolutional Networks论文学习
0.优点核心就两个模块:dense block ,transition。我看完这篇论文觉得和resnet的思想很想1.由于他和renet一样都是会在训练的时候提前底层特征所以会避免梯度消失(resnet、densenet、inception都采用一定的手段来避免梯度消失)2. 有效的使用了feature map,他可以在数据集体量比较小的情况下有一个不错的效果3. 使用了transition和desen block都有1*1卷积模块(desenblock内部使用bottleneck)。4. 参数原创 2021-05-19 16:20:49 · 180 阅读 · 0 评论 -
GAN:Generative Adversarial Net
0.摘要gan网络所解决的问题不是跟踪、检测之类的,而是产生一张可以瞒天过海的图片来仿真输入的图片。1.原理一张图片就可以阐述gan网络的工作原理:同时训练两个模型:一个生成模型G(Generative)来捕获数据分布,一个判别模型D(discriminator)来估计样本来自训练数据集而不是G的概率,两个网络交替训练。有一个一代的generator,它能生成一些很差的图片,然后有一个一代的discriminator,它能准确的把生成的图片,和真实的图片分类,简而言之,这个discriminat原创 2021-05-11 08:48:03 · 171 阅读 · 0 评论 -
NIN:Network in Network论文学习
0.摘要提出了两个比较新颖(当时)的模块:用1x1卷积来模拟mlp con(多层感知机卷积层),也可以说是用mlp来代替relu等激活函数;全局均值池化1.MLP Convolution LayersMlpconv层可以看成是每个卷积的局部感受野中还包含了一个微型的多层网络(1x1卷积)。其实在以前的卷积层中,我们局部感受野窗口(做NxN卷积运算)的运算,可以理解为一个广义的线性运算,GLM(generalized linear model)如下图所示:但是现在为了提高网络的非线性,就不用普通原创 2021-05-10 19:33:30 · 115 阅读 · 0 评论 -
轻量型网络之MobileNetV2: Inverted Residuals and Linear Bottlenecks论文学习
0.摘要针对残差结构提出来倒残差结构(Inverted Residuals),由于使用的是1x1卷积在resnet中也叫瓶颈层,所以这个模块最终叫做具有线性瓶颈的倒残差结构(the inverted residual with linear bottleneck)。0.1深度分离卷积(Depthwise Separable Convolutions)本文依旧使用深度分离卷积,简单复习一下。将标准卷积拆分为深度分离卷积在MobileNetv1中详细讲解过了,其基本思想:将标准卷积拆分为两个分卷积:第一层原创 2021-05-08 16:40:28 · 658 阅读 · 0 评论 -
轻量型网络之MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications论文学习
0.简述作者思路清奇,把原来的卷积操作给拆成两个方向的卷积了:把标准卷积(standard convolutional )分解成深度卷积(depthwise convolution)和逐点卷积(pointwise convolution),然后把这种新的卷积叫做深度可分离卷积Depthwise Separable Convolution1,深度可分离卷积标准的卷积所产生的计算花费是很高的:所以拆成了两部分,深度卷积负责滤波作用,尺寸为( D K , D K , 1 , M ),输出特征为( D原创 2021-05-08 10:08:48 · 107 阅读 · 0 评论 -
传统骨干网比较LeNet AlexNet VGG Inception
LeNetLeNet((conv): Sequential((0): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))(1): Sigmoid()(2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)(3): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))(4): Sigmoid()(5): M原创 2021-05-07 19:41:46 · 207 阅读 · 0 评论 -
Batch Normalization
优点:克服了深度网络在训练中的缺点,摆脱了relu、低学习率和doupout正则化方式束缚\hat x^{(k)} = \frac{x^{(k)} - E[x^{(k)}]} {\sqrt {Var[x^{(k)}]}}原创 2021-04-30 20:48:05 · 87 阅读 · 0 评论 -
注意力机制:SEnet and CABD and BAM
注意力机制是源于nlp,在这篇论文中主要使用的是squeeze and excitation(压缩和激活)模块。优点:可以学习使用全局信息来选择性地强调信息特征和抑制无用的特征。se结构简单,轻量化,可以直接放在最先进的框架中,而且计算简单,只是稍微增加了计算的复杂度。自动学习,而不是手工设计。#SEnet0.基础知识0.1 Feedforword 结构Feedforword 结构中主要起作用的是激活函数,通过激活函数增加模型的非线性学习能力;一般网络都是一个线性学习套一个激活函数增加它的学原创 2021-04-20 08:43:43 · 2622 阅读 · 0 评论 -
目标检测之DETR:End-to-End Object Detection with Transformers
特点:self-attention layers,end-to-end set predictions,bipartite matching lossThe DETR model有两个重要部分:1)保证真实值与预测值之间唯一匹配的集合预测损失。2)一个可以预测(一次性)目标集合和对他们关系建模的架构。3)由于是加了自注意力机制,而且在学习的过程中,观众的注意力训练的很好,每个人的关注点都不一样,所以分割效果很好,有效的解决遮挡问题DETR 将目标检测任务视为一个图像到集合(image-to-原创 2021-04-20 08:39:15 · 1506 阅读 · 0 评论 -
Resnet家族(持续更新中,4.15)
《Deep Residual Learning for Image Recognition》论文阅读笔记0.基础知识:0.1残差:假设真实模型为:‘ 真实模型的含义是,变量X通过线性形式来影响Y,但是始终存在随机波动,那么我们用u来表示这样的随机波动,或者称为随机误差。通过输入一系类x可以得到一些列y,这样就得到的一组数据集,我们已知x,y是线性关系所以可以用一个一元线性函数来表示: ‘ 那么此时,Y的估计值和Y之间的差称为残差。残差是对随机误差的估计。我感觉resnet叫做残差比较形象,深原创 2021-04-15 09:58:15 · 232 阅读 · 0 评论