深度学习论文解读
文章平均质量分 61
yuanCruise
工科生的笔尖
展开
-
IJCAI2018 | SFP软剪枝通道裁剪算法
论文:Soft Filter Pruning for Accelerating Deep Convolutional Neural Networks论文:Asymptotic Soft Filter Pruning for Deep Convolutional Neural Networks论文链接:https://arxiv.org/pdf/1808.06866.pdf论文链接:https://arxiv.org/pdf/1808.07471.pdf代码链接:https://github.com/原创 2020-05-20 18:03:06 · 2095 阅读 · 0 评论 -
CenterLoss | 减小类间距离
1.centerloss原理centerloss中心损失它仅仅用来减少类内的差异,而不能有效增大类间的差异性。下图中,图(a)表示softmax loss学习到的特征描述 。图(b)表示softmax loss + center loss 学习到的特征描述,他能把同一类的样本之间的距离拉近一些,使其相似性变大,尽量的往样本中心靠拢,但可以看出他没有把不同类样本之间的样本距离拉大。centerloss的主要思路为:让每一类特征尽可能的在输出特征空间内聚集在一起。更直白的描述就是每一类的特征在特征空间中尽原创 2020-05-13 22:54:14 · 5210 阅读 · 0 评论 -
FG2020 | 软门控信号优化shortcut
https://arxiv.org/pdf/2002.11098.pdf1.优化shortcut现有的很多优秀的人体姿态估计网络都用到了类似Hourglass框架,该架构由多个如下图所示的编码器+解码器组合而成,且该框架内部有一个约定是下图中的跳跃连接能够有效提升网络性能。而本文对这种跳跃连接进行了深入分析,并利用软门控信号的方式优化该连接,实现了精度的提升。2.软门控信号如上图所示,所谓的软门控信号就是在每个跳跃连接的过程中,加入一个和输入通道维度相同的向量组,该向量组中的每一个标量值代表了当原创 2020-05-13 22:53:34 · 673 阅读 · 0 评论 -
ICLR 2017 | AT_注意力引导的知识蒸馏
ICLR2017 | Paying More Attention to Attentionhttps://github.com/szagoruyko/attention-transfer1.注意力机制注意力在人类视觉体验中起着至关重要的作用。如下图所示,以图像分类为例,注意力地图展示了学习完成后的网络模型更关注于图像的哪个区域,是网络模型学习成果的体现。本文通过迫使学生模型模仿强大的教师模型...原创 2020-03-28 21:21:47 · 2482 阅读 · 0 评论 -
CVPR 2019 | VID_最大化互信息知识蒸馏
CVPR 2019 | Variational Information Distillation for Knowledge Transferhttps://github.com/qiu931110/RepDistiller1.互信息在这篇论文中,作者提出了一种新的知识蒸馏形式,该方法将知识蒸馏的最优性能定义为最大化教师和学生网络之间的互信息。那么为什么通过最大化互信息可以使得蒸馏学习变得有...原创 2020-03-28 21:21:18 · 3869 阅读 · 2 评论 -
CVPR 2019 | SP_相似性保存知识蒸馏
CVPR 2019 | Similarity-Preserving Knowledge Distillation1.保持相似性知识蒸馏(SPKD)在这篇论文中,作者提出了一种新的知识蒸馏形式,该方法是作者观察到相似语义的输入往往会使得神经网络输出相似的激活模式这一现象启发得到的。该知识蒸馏方法被称为保持相似性知识蒸馏(SPKD),该方法使得教师网络中相似(不同)激活的输入样本对,能够在学生网络...原创 2020-03-28 21:20:44 · 1709 阅读 · 1 评论 -
ECCV2018 | PKT_概率知识蒸馏
ECCV2018 | Learning Deep Representations with Probabilistic Knowledge Transferhttps://github.com/passalis/probabilistic_kt1.传统知识蒸馏最早的知识蒸馏方法专门针对分类任务进行设计,它们不能有效地用于其他特征学习的任务。 在本文中,作者提出了一种通过匹配数据在特征空间中的...原创 2020-03-20 22:03:24 · 2624 阅读 · 1 评论 -
CVPR2019 | 关系型知识蒸馏法
CVPR 2019 | Relational Knowledge Distillationhttps://github.com/HobbitLong/RepDistiller1.蒸馏学习由于大模型的拟合能力强,但计算效率低耗时大,而小模型的拟合能力弱,计算效率高。基于该特征,蒸馏学习的目的是让小模型学习大模型的拟合能力,在不改变计算效率的前提下提升小模型的拟合能力。如下图所示,传统的蒸馏学习...原创 2020-03-17 23:16:48 · 5631 阅读 · 0 评论 -
CVPR 2020 | 模型压缩新范式_滤波器嫁接技术
CVPR 2020 | Filter Grafting for Deep Neural Networkshttps://github.com/fxmeng/filter-grafting1.滤波器嫁接动机本文提出了一种全新的学习范式:滤波器嫁接,用于提高神经网络的特征表达能力。构建滤波器嫁接技术的动机是通常在训练完的网络中存在一些无效的滤波器,很多网络模型剪枝的文献中就会把这些无效的滤波器剪...原创 2020-03-08 14:47:21 · 1434 阅读 · 2 评论 -
CVPR 2018 | CPN_COCO2017姿态估计冠军解决方案
CVPR 2018 | Cascaded Pyramid Network for Multi-Person Pose Estimationhttps://github.com/chenyilun95/tf-cpn1.文章概述本文提出了一种级联金字塔网络CPN,该网络由全局金字塔网络(GlobalNet)和利用在线难例挖掘机制的精馏网络(RefineNet)组成。GlobalNet是一个特征金...原创 2020-03-06 21:34:44 · 1664 阅读 · 0 评论 -
CVPR2017 | G-RMI_Google大佬构建的姿态估计baseline
CVPR2017 Google | Towards accurate multi-person pose estimation in the wildOfficial Code: pytorch1.文章概述正如文章中提到的in the wild,本文的目的是利用top-down类姿态估计算法,尝试解决现实生活中各种实际存在的复杂情况下的人体姿态估计问题。其中最常见的是在人与人彼此靠近时,人体...原创 2020-03-06 20:56:50 · 1484 阅读 · 0 评论 -
CVPR 2019 | MSPN 重新思考多阶段人体姿态估计网络
CVPR 2019 | Rethinking on Multi-Stage Networks for Human Pose EstimationOfficial Code: pytorch1.重新划分人体姿态估计网络类别bottom-up and top-down:现有的人体姿态估计网络综述中,通常将其分为bottom-up和top-down两大类。其中bottom-up类网络直接提取全图...原创 2020-03-01 11:58:40 · 2676 阅读 · 1 评论 -
SAGANPose | 隐式结构化对抗人体姿态估计网络
Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose EstimationOfficial Code: pytorch1.背景分析关键点遮挡和人体重叠会导致人体姿态估计的难度增大,在这种情况下,可能会产生生物学上难以置信的姿势预测。相反,人类视觉能够通过利用联合互连的人体关节间的几何约束来预测姿...原创 2020-02-24 22:20:47 · 1271 阅读 · 0 评论 -
SGANPose | 自对抗人体姿态估计网络
Self Adversarial Training for Human Pose EstimationOfficial Code: pytorch1.出发点由于人体的遮挡和拥挤等现象,现有的人体姿态估计网络很难解决此类情况下的准确估计,且此类现象会导致网络估计的关键点不符合正常的人体姿态,失去了人体固有的形态。比如下图中第二行图片所示,相较于第一行,很显然有部分关节是违背事实的。作者希望即使...原创 2020-02-24 21:59:46 · 3254 阅读 · 0 评论 -
DirectPose | 首个 检测&关键点 回归网络
DirectPose: Direct End-to-End Multi-Person Pose Estimation论文地址:https://arxiv.org/pdf/1911.07451.pdf1.出发点最近,anchor-free的思想在CV的各个方向都大放异彩,尤其是目标检测领域。多数anchor-free的目标检测算法利用对图像中特征点的定位,实现目标检测。很容易看出,一个人体实例...原创 2020-02-21 20:01:25 · 5311 阅读 · 5 评论 -
UDP无偏数据处理 | 人体姿态估计通用trick
The Devil is in the Details: Delving into Unbiased Data Processingfor Human Pose Estimationgithub地址1.使用连续度量标准数据转换是指在不同的坐标系之间对关键点位置进行裁剪、旋转、调整大小、翻转等操作的转换。现有的姿态估计方法都是在离散空间中利用像素来测量图像的大小。而利用离散的像素点作为度量,...原创 2020-02-14 20:19:36 · 2420 阅读 · 0 评论 -
基于CNN的2D多人姿态估计论文综述
bottom up系列算法(直接获取全图人体关键点):1.Openpose(coco2016关键点冠军,利用paf进行group)2.Lightweight OpenPose(轻量级Openpose)3.Associative Embedding (关键点分组编码思想)4.Pose Proposal Networks(利用YOLO思想采用网格级别姿态估计)5.GPN(生成分区网络用以实...原创 2020-02-13 19:00:46 · 2711 阅读 · 1 评论 -
基于CNN的2D单人体姿态估计论文综述
1.DeepPose(谷歌大佬首次提出人体关键点解决方案)CVPR2014 Google | DeepPose: Human Pose Estimation via Deep Neural Networks3rdParty Code:pytorch3rdParty Code:chainer3rdParty Code:tensorflow3rdParty Code:caffeGoogle...原创 2020-02-06 20:21:56 · 7495 阅读 · 1 评论 -
CVPR2019 | CrowdPose:拥挤人体关键点benchmark
https://github.com/MVIG-SJTU/AlphaPose/tree/pytorchhttps://arxiv.org/pdf/1812.00324.pdf1.传统单人姿态估计loss传统的单人姿态估计模型的loss(以MSE均方误差为例),对于每个关键点而言,传统的计算loss方式如下:上图中,一个目标框中只对有效人体的关键点进行回归。不考虑背景中出现的其他人体关...原创 2019-12-29 17:03:18 · 869 阅读 · 0 评论 -
DIoU YOLOv3 | AAAI 2020:更加稳定有效的目标框回归损失
DIoU要比GIou更加符合目标框回归的机制,将目标与anchor之间的距离,重叠率以及尺度都考虑进去,使得目标框回归变得更加稳定,不会像IoU和GIoU一样出现训练过程中发散等问题。https://arxiv.org/pdf/1911.08287.pdfhttps://github.com/Zzh-tju/DIoU-darknet1:IoU & GIoU存在的问题分析论文作者...原创 2019-11-30 22:17:14 · 6240 阅读 · 3 评论 -
Anchor Loss | ICCV2019,优化分类性能
本文提出了一种基于样本预测困难度动态调整交叉熵的损失函数,它根据预测的相对困难程度来自动调节损失的大小。在本文中,我们将介绍anchor loss,并解释图像分类中anchor loss。首先,我们定义了预测的困难,并给出了相关的例子。然后给出了锚失量函数的广义形式。并通过数值的形式介绍了anchor loss。最后,通过与其他损失函数在公式上的比较,加深anchor loss 提出的改变。论...原创 2019-11-24 17:17:33 · 1141 阅读 · 2 评论 -
Giou YOLOv3 | CVPR2019,通用,更优的检测框评价指标
本文提出的GIou损失函数,是一种目标检测领域用于回归目标框损失函数。该Trick适用于任何目标检测算法。本文以YOLOv3为例进行阐述。https://giou.stanford.edu/GIoU.pdfhttps://github.com/qiu931110/g-darknet1.MSE回归策略在原始的YOLOv3中利用MSE作为损失函数来进行目标框的回归,如下图所示,不同质量的预测结...原创 2019-11-02 10:24:52 · 3630 阅读 · 4 评论 -
Guassian YOLOv3 | ICCV2019,更快更强的YOLOv3
在目标检测的落地项目中,实时性和精确性的trade-off至关重要,而YOLOv3是目前为止在这方面做得最好的算法。本文通过高斯分布的特性,改进YOLOv3使得网络能够输出每个检测框的不确定性,从而提升了网络的精度。1.YOLOv3简介如下图a所示,为YOLOv3的网络架构。YOLOv3使用了skip shotcut的操作方式网络过深而引起的梯度消散。YOLOv3使用了up-sample操...原创 2019-10-27 17:21:06 · 5053 阅读 · 11 评论 -
【姿态估计】 | DARK——人体姿态估计通用trick
https://arxiv.org/pdf/1910.06278.pdf关键点标签编码(encoding)训练人体姿态估计网络时,考虑到训练代价,通常会将将输入图片做降采样,在降采样后的分辨率上进行训练。为了网络能够以热度图为标签进行训练,需要将基于原图分辨率的关键点坐标,转换为降采样后分辨率下的关键点坐标。并利用高斯模糊进行转换成热度图。我们称这个过程称为坐标编码,从坐标点到热图。关...原创 2019-10-24 07:41:54 · 2889 阅读 · 0 评论 -
CV领域的注意力机制综述
注意力机制在卷积网络的优化中,以及被广泛的使用。下面介绍几种非常著名的,应用于特征提取网络的注意力机制。SEnet(https://arxiv.org/abs/1709.01507 )SEnet(Squeeze-and-Excitation Network)考虑了特征通道之间的关系,在特征通道上加入了注意力机制。SEnet通过学习的方式自动获取每个特征通道的重要程度,并且利用得到的重要程...原创 2019-10-19 10:40:25 · 5817 阅读 · 3 评论 -
【2019 | 知识蒸馏】Fast Huamn Pose Estimation
现有的人体姿态估计网络,想要到达较好的效果,需要对网络进行堆叠,不论是Hourglass,CPN,HRnet等优秀的网络都有这个特性。但在实际应用时,效率是一个不可避免的问题。因此,本文提出了一种新的快速姿态蒸馏(FPD)模型学习策略。具体来说,FPD训练了一个轻量级的姿态识别神经网络架构,能够以较低的计算成本快速执行。这是通过有效地转移一个强大的教师网络的模型知识来实现的。实验证明了本文的FPD...原创 2019-10-13 11:14:19 · 1248 阅读 · 0 评论 -
商汤科技:目标检测中的特征交织机制
商汤提出的一种特征交织机制,用来提升目标检测网络对小目标的学习能力,感觉大佬的思想好有创造力啊!!!论文地址:https://arxiv.org/pdf/1903.11851.pdf论文源码:https://github.com/hli2020/feature_intertwiner本文主要介绍下特征交织技术的核心思想,反正我看完论文感觉真的很有创造力!作者认为我们在进行目标检测任务时...原创 2019-04-04 23:35:33 · 2215 阅读 · 0 评论 -
【深度学习】:代价函数的选择
二次代价函数: 如上图所示的A点假设我们的目标是0,那么B点离目标比较远,但是由于梯度比较小所以更新速度很慢,这种情况不和逻辑很不好,这就是二次代价函数的缺点。交叉熵代价函数: 对数似然函数:...原创 2018-05-22 00:11:09 · 983 阅读 · 0 评论 -
人体姿态估计 | 七篇你必须仔细阅读的论文
https://mp.csdn.net/mdeditor/100601750本文重新思考了这种多阶段策略,首先文章分析了一下,single-stage策略,典型的mutil-stage网络,hourglass,为什么叫他原创 2019-09-08 00:31:30 · 3916 阅读 · 0 评论 -
【R-FCN】论文解读
本篇博客一方面介绍R-FCN算法(NISP2016文章),该算法改进了Faster RCNN,另一方面介绍其Caffe代码,这样对算法的认识会更加深入。论文:R-FCN:object detection via region-based fully convolutional networks 论文链接:http...转载 2018-08-06 17:38:10 · 999 阅读 · 0 评论 -
【FPN】论文解读
这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,特来分享。论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.03144论文概述:作者提出的多尺度的object dete...转载 2018-08-06 17:39:02 · 7248 阅读 · 0 评论 -
基于多尺度深度网络的单幅图像深度估计
基于多尺度深度网络的单幅图像深度估计原文地址:http://blog.csdn.net/hjimce/article/details/50569474作者:hjimce一、相关理论本篇博文主要讲解来自2014年NIPS上的一篇paper:《Depth Map Prediction from a Single Image using a Multi-Scale Deep Networ...转载 2017-07-23 21:12:19 · 1549 阅读 · 0 评论 -
NYU-Depth数据集
数据集包含以下几个部分:有标签的:视频数据的一个子集,伴随着密集多标签。此数据也已经被预处理,以填补缺少的深度标签。原始数据集:利用Kinect测得的原始的RGB、Depth、加速度数据。工具箱:用于操作数据和标签的有用的工具。用于评估的训练和测试部分。有标签的数据集有标签的数据集是原始数据集的子集。它是由成对的RGB和深度帧同步组成的,并且每个图像都有多个标签。除了加上标签的深度地图之外原创 2017-07-23 21:25:59 · 22147 阅读 · 15 评论 -
基于多尺度卷积神经网络框架结合语义标签和surface normals以及深度预测
本文提出的方法可以在没有在超像素以及低维度的分割的情况下提取图像细节,直接产生一个像素map。模型框架框架主要继承于论文基于多尺度深度网络的单幅图像深度估计。首先我们的模型变得更深了(有了更多的卷积层)。其次,网络添加了第三个等级,将最终的输出分辨率提高到原图的一半(原来是1/4)。最后我们对于前两个等级的输出不固定,从一开始就统一训练三个层级,一起调整参数。一:层1 . 全局图像这一层提取全局特征原创 2017-07-24 10:05:56 · 1455 阅读 · 0 评论 -
神经网络压缩综述
1.研究背景对模型预测精度无明显影响压缩模型的参数数量、深度来降低模型空间复杂度 全连接层参数多,模型大小由全连接层主导不显著提高训练时间复杂度,降低预测时间复杂度(计算量) 卷积层计算量大,计算代价由卷积操作主导2.方法2.1.更精细模型的设计Aggregated Residual Transformations for Deep Neural Networ...转载 2018-05-04 08:51:07 · 10192 阅读 · 1 评论 -
【深度学习】:优化器的选择
三种梯度下降法: 若是样本很多,用标准梯度法会很慢,用随机梯度会很快,但是由于每个样本都会用来更新权重,会有噪声的引入,会产生更新错误。Momentum: 因此训练速度会有一定的加快。NAG(Nesterov accelerated gradient): Adagrad:RMSProp:基于adagrad的缺点提出了这个 Adadelta:A...原创 2018-05-22 00:28:36 · 2578 阅读 · 0 评论 -
【论文】【LapSRN】Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution
模型框架图(其中一级)若S是我们的放大因子,那么我们在log2S层,渐进的预测残差图。模型主要有两部分:特征提取,图像重构特征提取图像重构对于每一级而言(s层),对输入图像用一个scale等于2的一个上采样层进行操作。然后这个上采样层将和当前层的特征提取分支预测得到的residual图进行相加(利用element-wise summation)。并将相加得到的HR图像输入到下一...原创 2018-05-24 16:54:01 · 1086 阅读 · 0 评论 -
【论文】人脸特征点检测:TCDCN
Learning and Transferring Multi-task Deep Representation for Face Alignment摘要通过多任务学习提升检测鲁棒性。特别的,使用与人脸相关的属性共同学习人脸的特征点位置。 tasks-constrained deep model:解决不同的任务有不同特点这个问题 task-wise early stopping cr...原创 2018-05-31 16:32:52 · 1328 阅读 · 0 评论 -
【论文】单目深度估计:Unsupervised Monocular Depth Estimation with Left-Right Consistency
Unsupervised Monocular Depth Estimation with Left-Right Consistency摘要不像之前的有监督的方法一样,利用深度图作为标签(GT),本文的方法用容易得到的双目图来训练。利用epipolar geometry constraints。我们通过训练我们的网络来产生视差图像,使其具有图像重建的损失。结果表明,仅对图像重建进行求解就...原创 2018-06-01 14:28:03 · 4509 阅读 · 1 评论 -
【Resnet】
Shortcut解析 整体解析转载 2018-08-03 09:29:53 · 288 阅读 · 0 评论