深度学习
文章平均质量分 84
‘Atlas’
人工智能从业者,崇尚技术,享受学习的过程。主要研究方向:跨模态、文生图、虚拟试衣、目标检测、分割、关键点检测等
展开
-
NAFNet(ECCV 2022)-图像修复论文解读
图像修复新结构NAFNet,非线性激活函数非必须原创 2022-11-15 09:52:03 · 9722 阅读 · 4 评论 -
PP-YOLOE论文解读
PP-YOLOE基于之前PP-YOLOv2进行优化,使用anchor-free算法,更强的backbone及neck。配备了CSPRepResStage、ET-head和动态标签分配算法TAL;PP-YOLOE-l在COCO数据集上,Tesla V100上达到51.4mAP,78.1FPS;超越PP-YOLOv2及YOLOX;...原创 2022-05-19 22:07:15 · 1861 阅读 · 0 评论 -
Transformer结构解读-Attention is all you need
文章目录创新点算法EncoderMSADecoderFFNPosition Embedding论文:《Attention is all you need》代码:https://github.com/tensorflow/tensor2tensor创新点作者提出一种新的简单网络结构,Transformer,其完全基于注意力机制,摒弃CNN与RNN。我们的模型在 WMT 2014 英德翻译任务上达到了 28.4 BLEU,比现有的最佳结果提高了 2 BLEU 以上。算法Transformer结构如原创 2022-02-13 14:20:38 · 1503 阅读 · 0 评论 -
YOLOX论文解读
文章目录创新点算法Decoupled headStrong data augmentationAnchor-freeMulti positivesSimOTAEnd-to-end YOLO实验结果结论论文:《YOLOX: Exceeding YOLO Series in 2021》代码: https://github.com/Megvii-BaseDetection/YOLOX创新点将YOLO检测器变为anchor-free形式,减少人工设置参数;集成了其他先进检测技术(比如decoupled原创 2022-01-24 22:01:59 · 3955 阅读 · 3 评论 -
StyleGAN及StyleGANv2论文解读
文章目录StyleGAN贡献解决问题算法原理实验结果StyleGAN v2StyleGAN论文:《A Style-Based Generator Architecture for Generative Adversarial Networks》代码:https://github.com/NVlabs/styleganStyleGANv2论文:《Analyzing and Improving the Image Quality of StyleGAN》代码:https://github.com/NVl原创 2022-01-16 22:45:17 · 5290 阅读 · 0 评论 -
GAN-风格迁移-CycleGAN论文解读
CycleGAN风格迁移论文解读原创 2021-12-25 22:17:40 · 5253 阅读 · 0 评论 -
HRNet、HRNet V2网络结构解读
文章目录解决问题创新点算法原理HRNetV1HRNet V2应用于分割应用于检测-HRNet V2p实验结果HRNetV1HRNet V2总结论文:《Deep High-Resolution Representation Learning for Human Pose Estimation》github地址:https://github.com/HRNet/deep-high-resolution-net.pytorchHRNet V2论文:《High-Resolution Representatio原创 2021-08-08 18:00:09 · 6255 阅读 · 0 评论 -
姿态估计提纲
文章目录姿态估计Top-DownBottom-up无偏估计姿态估计姿态估计方法主要分为top-down及bottom-up方法。以人体关键点检测为例,top-down方法分两步:第一步通过检测寻找到图片中人体预测框;第二步对人体预测框进行关键点预测。bottom-up方法分两步:第一步检测全图中所有人体的关键点;第二步将所有人体关键点分组,即将关键点按照人体id归类。Top-DownHRNetHigher HRNetHRNetV2Bottom-upOpenPosePersonLabD原创 2021-08-07 22:09:18 · 234 阅读 · 0 评论 -
联邦学习-FedAvg、FedAMP论文解读
联邦学习-FedAvg、FedAMP论文解读原创 2021-05-29 23:53:24 · 17795 阅读 · 0 评论 -
误标搜寻-AUM应用于目标检测任务
误标搜寻-AUM应用于目标检测任务参考论文《Identifying mislabeled data using the area under the margin ranking》前言目前大多方案基于分类任务,进行误标搜寻。本文基于目标检测任务进行误标搜寻,原理基于上述论文。误标分为背景误标以及类间误标。开发过程中尝试通过前景置信度寻找背景误标,但是效果不理想,本文主要介绍类间误标。AUM原理首先简单减少AUM原理,式1表示,在t个epoch,当前样本x的margin,即为M,其有标注标签原创 2021-05-29 17:42:22 · 867 阅读 · 0 评论 -
SOLOv2算法解读
SOLOV2实例分割原创 2020-03-29 21:09:40 · 15064 阅读 · 2 评论 -
HTC算法解读
论文:Hybrid Task Cascade for Instance Segmentation论文链接:https://arxiv.org/abs/1901.07518代码链接:https://github.com/open-mmlab/mmdetection创新点本文主要有两个创新点:1、设计了多任务多阶段的混合级连结构。2、融入语义分割分支增强 spatial cont...原创 2020-03-29 15:57:27 · 3495 阅读 · 1 评论 -
SOLO算法解读
SOLO实例分割原创 2020-03-28 23:39:37 · 7713 阅读 · 0 评论 -
基于CAFFE的多任务训练
背景两任务分别为:openpose人体姿态估计任务以及yolov3检测任务。框架:CAFFE解决方案1、数据层法一:可更改DATA层,输出两个lbael,分别对应于人体姿态估计任务以及检测任务。结构如下图所示。法二:另一种方法简单一些,caffe支持两个data层,其结构如下图所示。每层数据格式为N*C*H*W,N表示数据个数,C表示通道数,H与W分别表示feature...原创 2020-03-28 22:30:26 · 265 阅读 · 0 评论 -
FCOS算法解读
论文:Fully Convolutional One-Stage Object Detection论文链接:https://arxiv.org/abs/1904.01355代码链接:https://github.com/tianzhi0549/FCOS/FCOS网络结构如下图所示:FCOS使用FPN,每个head输出为三个分支分别为:类别分支、center-ness、回归分...原创 2020-02-03 10:03:37 · 1970 阅读 · 0 评论 -
CNN可视化/可解释性
转自:https://blog.csdn.net/xys430381_1/article/details/90413169在当前深度学习的领域,有一个非常不好的风气:一切以经验论,好用就行,不问为什么,很少深究问题背后的深层次原因。从长远来看,这样做就埋下了隐患。举个例子,在1980年左右的时候,美国五角大楼启动了一个项目:用神经网络模型来识别坦克(当时还没有深度学习的概念),他们采集了100...转载 2019-11-20 22:47:51 · 1650 阅读 · 0 评论 -
深度学习-目标检测数据集以及评估指标
数据集和性能指标目标检测常用的数据集包括PASCAL VOC,ImageNet,MS COCO等数据集,这些数据集用于研究者测试算法性能或者用于竞赛。目标检测的性能指标要考虑检测物体的位置以及预测类别的准确性,下面我们会说到一些常用的性能评估指标。 数据集PASCAL VOC(The PASCAL Visual Object Classification)是目标检测,分类,分割等领...转载 2018-07-12 09:51:24 · 17548 阅读 · 2 评论 -
YOLO v3算法详解
论文地址:YOLOv3: An Incremental ImprovementYOLO算法详解,YOLO v2算法详解1.The Deal接下来,从头梳理整个网络,如果对YOLO和YOLO v2不熟悉,可以看一下我之前的博客。1.1 Bounding Box PredictionYOLO v3沿用YOLO9000预测bounding box的方法,通过尺寸聚类确定anchor box。对每个bounding box网络预测4个坐标偏移。如果feature map某一单元偏移图片左上角坐标原创 2019-03-25 23:44:21 · 44933 阅读 · 3 评论 -
深度学习-计算量及GPU显存
1、计算量MACC与FLOPMACC:表示一次乘法累加。FLOP:表示计算量,比如一次乘法或加法运算。FLOPs为FLOP单位,因此1 MACC=2 FLOPs我们通常统计计算量使用FLOPs(浮点运算数),但是这里我们使用MACCs或乘法累加数。理论计算量用FLOPs表示,关系到算法速度,大模型的单位通常为G,小模型通道为M。注意两点:理论计算量通常只考虑只考虑CONV和FC...原创 2019-05-22 10:42:57 · 4325 阅读 · 4 评论 -
Caffe框架-入门浅谈及碰到的坑
Caffe学习主要围绕:数据、deploy.prototxt文件、***.caffemodel文件、solver.prototxt文件、训练脚本文件数据数据层有多种格式,可参考:https://www.cnblogs.com/denny402/p/5070928.html目前我所使用的是ImageData,因为caffe数据增强功能较少,因此自己修改caffe源码,增加数据增强功能,参...原创 2019-05-31 11:43:27 · 2378 阅读 · 0 评论 -
MobileNet v1算法解读
论文地址:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications1、简介Mobilenet v1是Google于2017年发布的网络架构,旨在充分利用移动设备和嵌入式应用的有限的资源,有效地最大化模型的准确性,以满足有限资源下的各种应用案例。2、网络结构2.1Depthwi...原创 2019-06-30 14:49:47 · 971 阅读 · 0 评论 -
MobileNet v2算法解读
论文地址:MobileNetV2: Inverted Residuals and Linear Bottlenecks1.改进MobileNet V2是Google继V1之后提出的下一代轻量化网络,主要解决了V1在训练过程中非常容易特征退化的问题,V2相比V1效果有一定提升。2.核心v2沿用v1的Depthwise Separable Convolutions Depthwise。...原创 2019-06-30 16:20:38 · 1860 阅读 · 0 评论 -
YOLO v2算法详解
论文地址:YOLO9000: Better, Faster, Stronger优势:YOLO9000能够预测超过9000个不同类别。在voc07数据集上,YOLO v2表现胜过Faster R-CNN,67FPS,76.8mAP;40FPS,78.6mAP。BetterYOLO算法产生大量定位误差,并且具有低召回率。因此我们在维持分类准确性的前提下,提高召回率和定位准确度。...原创 2019-03-22 16:23:33 · 5572 阅读 · 0 评论 -
深度学习-网络参数初始化Xavier与MSRA
权值初始化的方法主要有:常量初始化(constant)、高斯分布初始化(gaussian)、positive_unitball初始化、均匀分布初始化(uniform)、xavier初始化、msra初始化、双线性初始化(bilinear)。可参考博客。重点介绍xavier与msra。xavier初始化 对于权值的分布:均值为0,方差为(1 / 输入的个数) 的 均匀分布。推导...原创 2018-07-30 09:54:04 · 2539 阅读 · 0 评论 -
深度学习-目标检测评估指标P-R曲线、AP、mAP
mAP评估原创 2018-07-15 11:41:42 · 71676 阅读 · 48 评论 -
深度学习-YOLOV3在百度点石数据集测试
github:https://github.com/wucj123/YOLOV3#yolov3训练集来自百度点石广告大赛的训练集,共9000张,60类,随机取1/5,共1780张用作测试集,剩余7220张用作训练集,取10%用作验证集。训练过程阶段一:150个epoch,batch=10,learning rate为1e-3,每3个epoch,loss不下降,则降低为原来0.5,2...原创 2018-07-19 11:37:00 · 1547 阅读 · 0 评论 -
深度学习-yolov3网络结构
可结合第一张与第二张理解网络结构layer filters size input output 0 conv 32 3 x 3 / 1 416 x 416 x 3 -> 416 x 416 x 32 1 conv 64 3 x 3 / 2 416 x 416 x ...原创 2018-07-12 21:31:44 · 7033 阅读 · 9 评论 -
深度学习-1x1卷积如何减少模型参数
以googlenet中的inception模块为例,来说明1x1的卷积如何来减少模型参数。 左边是naive的inception模块,右边是加入1x1 convolution进行降维的inception。按照上面的说法,我们的这层的模型参数与输入的特征维数(28x28x192),卷积核大小以及卷积通道数(包括三种卷积核,分别是1x1x64,3x3x128,5x5x32),右图中在3x3,5x5 c...原创 2018-07-12 21:10:49 · 2173 阅读 · 0 评论 -
深度学习-YOLOV3在VOC07数据集测试
github:https://github.com/wucj123/YOLOV3#yolov3训练集来自voc07,The PASCAL Visual Object Classification,此数据集分训练集与测试集,其中训练集,图片5011张,测试集图片4952张。训练过程去训练集中10%用作验证集,阶段一:50个epoch,lr=1e-3,batch_size=32,耗...原创 2018-07-16 15:51:11 · 8043 阅读 · 6 评论 -
深度学习-正则化
概述正则化是机器学习中非常重要并且非常有效的减少泛华误差的技术,特别是在深度学习模型中,由于其模型参数非常多非常容易产生过拟合。因此研究者也提出很多有效的技术防止过拟合,比较常用的技术包括:参数添加约束,例如L1、L2范数等 训练集合扩充,例如添加噪声、数据变换等 Dropout该文主要介绍深度学习中比较常见几类正则化方法以及常用参数选择,并试图解释其原理。正则化技术参...转载 2018-07-02 17:59:50 · 660 阅读 · 0 评论 -
深度学习-深度卷积神经网络发展
AlexNet网络现代意义上的深度卷积神经网络起源于AlexNet网络,它是深度卷积神经网络的鼻祖。这个网络相比之前的卷积网络最显著的特点是层次加深,参数规模变大。网络结构如下图所示:这个网络有5个卷积层,它们中的一部分后面接着max-pooling层进行下采样;最后跟3个全连接层。最后一层是softmax输出层,共有1000个节点,对应ImageNet图集中 1000个图像分类。网络中部分卷基层...原创 2018-07-09 11:12:23 · 15157 阅读 · 0 评论 -
深度学习-目标识别Faster R-CNN
转自:https://blog.csdn.net/qq_17448289/article/details/52871461在介绍Faster R-CNN之前,先来介绍一些前验知识,为Faster R-CNN做铺垫。一、基于Region Proposal(候选区域)的深度学习目标检测算法Region Proposal(候选区域),就是预先找出图中目标可能出现的位置,通过利用图像中的纹理、...转载 2018-06-26 17:17:36 · 1630 阅读 · 0 评论 -
深度学习-Batch Normalization
转自:https://blog.csdn.net/hjimce/article/details/50866313Batch Normalization在CNN中的使用我们知道BN层是对于每个神经元做归一化处理,甚至只需要对某一个神经元进行归一化,而不是对一整层网络的神经元进行归一化。既然BN是对单个神经元的运算,那么在CNN中卷积层上要怎么搞?假如某一层卷积层有6个特征图,每个特征图的大小...转载 2018-07-30 17:29:46 · 152 阅读 · 0 评论 -
反卷积(Deconvolution)、上采样(UNSampling)与上池化(UnPooling)
前言在看图像语义分割方面的论文时,发现在网络解码器结构中有的时候使用反卷积、而有的时候使用unpooling或或者unsampling,查了下资料,发现三者还是有不同的。这里记录一下。图示理解使用三张图进行说明: 图(a)表示UnPooling的过程,特点是在Maxpooling的时候保留最大值的位置信息,之后在unPooling阶段使用该信息扩充Feature Map,除最大值位...转载 2018-08-04 17:26:10 · 481 阅读 · 0 评论 -
深度学习-卷积计算
https://blog.csdn.net/glory_lee/article/details/77899465转载 2018-08-07 16:56:30 · 2491 阅读 · 0 评论 -
YOLO算法详解
论文地址:You Only Look Once: Unified, Real-Time Object Detection创新点YOLO实现了实时处理图片,达到45FPS;Fast YOLO达到155FPS,但是检测准确率不高。优势:速度快。 做预测时全局了解图像,对背景预测错误出现的概率比Fast R-CNN小。 YOLO学习目标的一般特征,具有较高通用性,应用到新领域,不太可...原创 2019-03-20 19:25:23 · 7143 阅读 · 3 评论 -
Faster R-CNN算法详解
论文地址:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal NetworksGithub:https://github.com/rbgirshick/py-faster-rcnn解决问题主要解决Fast R-CNN中region proposal计算花费大量时间。Faster R-CNN提出RPN...原创 2019-02-24 17:04:21 · 1358 阅读 · 0 评论 -
Fast RCNN算法详解
论文:Fast R-CNN 论文链接优势本文提出了一种基于快速区域的卷积网络方法(Fast R-CNN)用于物体检测。Fast R-CNN建立在先前的工作基础上,使用深度卷积网络有效地对目标区域进行分类。与之前的工作相比,Fast R-CNN采用了多项创新来提高训练和测试速度,同时提高了检测精度。 快速R-CNN训练非常深的VGG16网络比R-CNN快9倍,在测试时间快213倍,并在PAS...原创 2019-02-13 18:30:52 · 1914 阅读 · 0 评论 -
评价指标-分类算法中常用的评价指标
转自:https://www.cnblogs.com/CheeseZH/p/5241010.html对于分类算法,常用的评价指标有:(1)Precision(2)Recall(3)F-score(4)Accuracy(5)ROC(6)AUCps:不建议翻译成中文,尤其是Precision和Accuracy,容易引起歧义。1.混淆矩阵混淆矩阵是监督学习中的一种...转载 2019-01-15 10:10:02 · 1827 阅读 · 0 评论 -
深度学习-卷积神经网络CNN-BN(Batch Normalization) 原理与使用过程详解
前言Batch Normalization是由google提出的一种训练优化方法。参考论文:Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift 个人觉得BN层的作用是加快网络学习速率,论文中提及其它的优点都是这个优点的副产品。 网上对BN解释详细的不多,大多从...转载 2018-09-20 20:43:05 · 10656 阅读 · 6 评论