深度学习算法
文章平均质量分 94
diligent_321
毕业于西电人工智能学院,硕士学历,目前工作方向为计算机视觉技术。
展开
-
深度学习算法效果提升-数据
       在初学机器学习的时候,常常看到一些博友提到,做机器学习80%以上的时间都用在了处理数据上,当初不以为然。现在工作也一年多了,在实际的项目中深深地体会到了这种说法的合理性。对于深度学习算法而言,提升效果最明原创 2018-11-04 21:00:04 · 888 阅读 · 0 评论 -
目标检测中的遮挡问题及优化
尽管目标检测算法整体上已经相对比较成熟,但是在特殊场景下的表现还有很多优化空间,比如图片中的目标有遮挡、图像运动模糊、目标为可改变形状的非刚性物体等。本文主要是针对遮挡问题,之前在做游戏目标检测时也遇到过这个问题,当时只是考虑增加训练样本的多样性,最近,笔者读了几篇解决目标检测中的遮挡问题的文章,也看了一些网友的解析,觉得若有所悟,不自觉地想把自己的理解记录下来,自认为“一万个人眼中有一万个哈姆雷...原创 2019-01-11 11:54:15 · 37336 阅读 · 3 评论 -
目标检测后处理:从nms到softer nms
对于目标检测算法,它包含了三个要素:Backbone + Head + Postprocess,上一篇文章介绍了Light Head R-CNN,它是对“head”部分的优化,对于Postprocess部分,最早用的是NMS,后面出现了Soft NMS和Softer NMS,本文将分别解释它们的动机和原理,希望能对大家有所帮助。1 NMSNMS,它的全称为“non-maximum supres...原创 2019-01-06 18:58:11 · 8200 阅读 · 13 评论 -
目标检测算法trident network引发的思考
文章目录1 SNIP2 Trident network2.1 动机2.2 感受野和目标尺寸的关系2.3 网络结构2.3.1 SPP2.3.2 ASPP3 总结4 参考资料最新的目标检测算法“Trident Network”,单模型的mAP刷到了48.4,的确是“state-of-the-art”。笔者看了论文作者Naiyan Wang的知乎解读,感觉解释的很深刻,然后看了同行们的评论,比如有人...原创 2019-01-17 21:26:16 · 5752 阅读 · 2 评论 -
目标检测中的多尺度问题及优化-SNIP
文章目录1 检测任务的困难1.1 尺度差异1.2 domain-shift2 图像分辨率对分类任务的影响3 目标检测的影响因素3.1 图像分辨率3.2 图像中目标的尺寸3.3 数据增强3.4 结果与结论3.4.1 结果3.4.2 结论4 SNIP4.1 网络结构4.2 Q&A5 总结6 参考资料在目标检测任务中,算法的效果常常会受到多种因素的影响,比如遮挡、目标尺度变化等,在之前的一篇...原创 2019-01-15 16:48:31 · 9223 阅读 · 5 评论 -
论文解读-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
最近需要做视频分类相关的工作,在做技术调研过程中,了解到视频分类包含了两种形式,(1)通用的多标签视频分类,它的特点是标签为静态的,也即做分类时不需要考虑图像帧之间的关联性,因此跟基于图片的分类没什么差异了。(2)行为识别,因为是“行为”,所以这类任务需要考虑图像帧之间的关联性,比如“芭蕾舞”、“绘画”等,包含了3D卷积和Two-stream两种方法,在看了这方面的综述文章后发现是全新的方向。因为...原创 2019-01-27 13:44:09 · 2287 阅读 · 4 评论 -
论文解读-Stacked Hourglass Networks for Human Pose Estimation
文章目录1 动机2 网络结构2.1 单一沙漏模块2.2 intermediate supervision2.3 堆叠沙漏模块3 实验结果4 总结5 参考资料在上一篇文章中,笔者解释了对OpenPose人体关键点检测算法的思考,它是一种“bottom-to-up”的人体姿态估计算法。为了对人体姿态估计这个方向有更加深刻的认识,笔者查阅了2018年的三大顶会(CVPR/ICCV/ECCV)的文章...原创 2019-01-29 14:47:43 · 1501 阅读 · 0 评论 -
论文解读-Rethinking on Multi-Stage Networks for Human Pose Estimation
文章目录1 动机2 算法设计2.1 更好的single-stage module2.2 Cross Stage特征融合2.3 Coarse-to-fine Supervision3 实验结果3.1 backbone的影响3.2 stages个数的影响3.3 Cross Stage特征融合的影响3.4 Coarse-to-fine Supervision的影响3.5 高斯核的影响4 总结5 参考资...原创 2019-02-16 17:39:47 · 2594 阅读 · 7 评论 -
论文解读-Feature Selective Anchor-Free Module for Single-Shot Object Detection
文章目录1 背景知识2 动机最近部分cvpr2019的论文出来了,为了能对目标检测方向的前沿算法有更多理解,笔者趁着周末,仔细阅读了Carnegie Mellon University的这篇文章。之所以选择这一篇,一是因为标题中有"Anchor-Free",立即引起了笔者的兴趣,毕竟大部分的目标检测算法还是基于Anchor的,二是论文的第二作者是Yihui He,他在模型剪枝方向做的非常不错,...原创 2019-03-10 21:44:02 · 11305 阅读 · 54 评论 -
论文解读-FCOS:Fully Convolutional One-Stage Object Detection
文章目录1 动机2 算法思想2.1 网络结构2.2 center-ness输出分支2.3 优化目标3 实验结果4 总结5 参考资料1 动机目标检测算法可以分为两大类别,anchor-based和anchor-free算法,前者是主流的做法,比如yolo-v3、ssd、faster rcnn等,它存在如下缺点,(1)引入很多需要优化的超参数, 比如anchor number、anchor s...原创 2019-04-07 17:25:38 · 6253 阅读 · 5 评论 -
对坐标回归任务的思考
文章目录1 前言2 回归任务的解决办法3 参考资料最近在做文档检测任务,一开始是将其看做基于像素的二分类任务,后来看了知乎上一篇基于关键点检测的文章,“深度学习实践文档检测”,看完后感触颇多,于是这里记录下来,方便以后翻看。1 前言回归任务和分类任务的区别在于,前者是预测连续值,后者是预测离散值。受此惯性思维的影响,笔者之前一直很好奇,为什么目标检测任务的坐标预测算是回归任务呢,毕竟它输出...原创 2019-04-14 17:40:49 · 2451 阅读 · 0 评论 -
人脸检测算法理解之mtcnn
最近在一次交流活动中,再次听别人讲人脸检测算法mtcnn,虽然以前也断断续续听过两次,对于一些技术细节仍不清楚,为了解决自己的困惑,笔者又重拾起这一算法,在认真研读论文和思考后有了新的理解,于是记录下来。下文主要解释mtcnn中min_face_size这个参数是怎么起作用的、如何使用图像金字塔等,希望能对大家有所帮忙。1 相关知识点1.1 “network in network”作为新加坡...原创 2018-12-30 16:12:57 · 3482 阅读 · 3 评论 -
理解目标检测算法之Light Head R-CNN
文章目录1 动机2 网络结构3 实验结果4 个人总结对于目标检测任务,输入图像通常都要经历3个步骤,Backbone + Head + Postprocess(NMS),目标检测算法的优化,通常也是围绕着这3个方面展开的。针对Backbone的优化有DetNet,针对Head的优化有Light head R-CNN,针对Postprocess的优化有soft nms和softer nms。值得...原创 2018-12-23 18:41:59 · 1787 阅读 · 0 评论 -
深度学习算法效果提升-网络结构
1. 前言 优化深度学习算法的效果可以从三个方面入手,数据+网络结构+损失函数。一般来说,外行改网络结构,内行改损失函数,公司层面收集数据。 在一般情况下,特别是手机端应用,直接拿个成熟的小网络进行迁移学习,如shufflenet、mobilenet等,是较为常见的做法。而且,由于一些开源框架提供了官方预训练的模型,只要自己的数据集和imagenet的数据类别出入不大,在其基础上做fine...原创 2018-11-03 21:52:01 · 4478 阅读 · 0 评论 -
对Image caption的一些理解(看图说话)
1. 背景 在计算机视觉中,图像分类和目标检测任务是比较成熟的领域,已经应用到实际的产品领域。而“看图说话”要实现的功能是,给定一张图像,计算机能告诉我们图片的内容,显然,这会使一个比较复杂的任务,因为它涉及到了如下的子任务:1)检测图像中的目标;2)目标的属性,比如颜色、尺寸等;3)目标之间的关联;4)语言模型,用于把上面的信息表述成句子;2. 相关的论文2.1 “...原创 2018-10-29 19:08:45 · 6038 阅读 · 0 评论 -
目标检测算法理解:从R-CNN到Mask R-CNN
目标检测算法理解:从R-CNN到Mask R-CNN 因为工作了以后时间比较琐碎,所以更多的时候使用onenote记录知识点,但是对于一些算法层面的东西,个人的理解毕竟是有局限的。我一直做的都是图像分类方向,最近开始接触了目标检测,也看了一些大牛的论文,虽然网上已经有很多相关的算法讲解,但是每个人对同一个问题的理解都不太一样,本文主要结合自己的理解做一下记录,也欢迎大家批评指正~ 在讲解obje原创 2017-10-30 21:37:52 · 1856 阅读 · 0 评论 -
生成对抗网络(GAN)应用于图像分类
近年来,深度学习技术被广泛应用于各类数据处理任务中,比如图像、语音和文本。而生成对抗网络(GAN)和强化学习(RL)已经成为了深度学习框架中的两颗“明珠”。强化学习主要用于决策问题,主要的应用就是游戏,比如deepmind团队的AlphaGo。因为我的研究方向是高光谱图像的有监督分类问题,故本文主要讲解生成对抗网络及其在分类问题方面的应用。生成对抗网络框架 生成对抗网络(Generative ad原创 2017-02-15 22:28:39 · 56652 阅读 · 58 评论 -
从循环神经网络(RNN)到LSTM网络
从循环神经网络(RNN)到LSTM网络 通常,数据的存在形式有语音、文本、图像、视频等。因为我的研究方向主要是图像识别,所以很少用有“记忆性”的深度网络。怀着对循环神经网络的兴趣,在看懂了有关它的理论后,我又看了Github上提供的tensorflow实现,觉得收获很大,故在这里把我的理解记录下来,也希望对大家能有所帮助。本文将主要介绍RNN相关的理论,并引出LSTM网络结构(关于对tensorf原创 2016-11-27 17:35:29 · 20191 阅读 · 5 评论 -
从GoogLeNet架构到deep dream模型
虽然深度神经网络在计算机视觉方面的效果非常显著,但至今还没有非常严格的理论支撑。最开始学习CNN的时候,采用的都是手写体识别的例子,对其最直观的解释即随着层数增加,所学到的特征越来越抽象(大致按照“点-> 线->角->整体轮廓”的顺序)。同样地,谷歌技术团队在训练他们的GoogLeNet网络时,为了对网络所学到的特征有更好的理解,他们在特征可视化方面做了很多努力,同时也发现了一些美轮美奂的图画(如下原创 2016-11-22 22:02:15 · 4021 阅读 · 0 评论 -
理解yolo系列目标检测算法
在计算机视觉任务中,如果说做的最成熟的是图像识别领域,那么紧随其后的应该就是目标检测了。笔者接触目标检测也有一段时间了,用mobilenet_ssd算法做过手机端的实时目标检测,也用faster-rcnn做过服务器端的二维码检测,尽管一直都知道yolo的效果也很不错,但没抽出时间细细研究,最近刚好闲出空来,就把yolo系列算法论文细读了一遍,在思考的过程中,也使我对之前的知识点有了新的体会,这里一...原创 2018-11-18 18:17:40 · 8672 阅读 · 1 评论 -
目标检测算法Q&A
1. 目标检测问题1. Yolo和SSD的区别是什么?回答:YOLO定位精度差,小目标检出率低;SSD是YOLO的多尺度版本,对小目标检出有改善。2. R-CNN、Fast-rcnn、Faster-rcnn的区别是什么?回答:(1)R-CNN使用selective search,然后对每个预选框做分类,缺点为穷举所有框很耗时;(2)Fast-rcnn使用selective search...原创 2018-12-19 19:38:27 · 310 阅读 · 0 评论 -
理解目标检测算法之R-FCN
在上一篇博文中,笔者写到了对Roi Pooling和Roi Align的区别的理解,当时不禁觉得Mask rcnn引入了Roi Align操作,进一步优化了目标检测任务的定位精度,然后在想,如果想继续优化,又有什么可供优化的方向呢,百思不得其解。后来又一次跟同事交流这个问题,然后无意间了解到凯明大神后面又联合提出了R-FCN。然后笔者查阅了一些资料和原论文,有了自己的一些理解和体会,故这里记录下来...原创 2018-12-23 14:35:29 · 1615 阅读 · 0 评论 -
论文解读-CenterNet:Keypoint Triplets for Object Detection
文章目录1 背景2 动机3 算法部分3.1 后处理3.2 center region定义3.3 center pooling3.4 Cascade corner pooling3.5 优化目标4 实验部分5 思考与总结论文信息文章链接:https://arxiv.org/abs/1904.08189作者:Kaiwen Duan单位:中科院、华为诺亚方舟实验室(实习单位)代码地址:htt...原创 2019-05-01 11:37:19 · 3298 阅读 · 4 评论