自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 tensorrt server如何支持Pytorch模型

笔者这里先抛出一个问题,tensorrt server和tensorrt有什么关系吗?大家可以思考一下哈

2019-07-27 16:56:39 1695 1

原创 在启动tensorrt server服务时提示"libopencv_highgui.so not found"

在使用tensorrt server的ensemble models功能时,笔者把预处理打包成了一个.so文件,分类模型使用的是.pb文件,但是当使用nvidia-docker命令启动trt server镜像时,报了错误"libopencv_highgui.so.2.4 not found",笔者踩了一些坑,终于找到了问题的原因,这里记录下来,方便以后随时翻看。预处理的.so调用了opencv库...

2019-07-26 22:05:58 1502 2

原创 论文解读-CenterNet:Keypoint Triplets for Object Detection

文章目录1 背景2 动机3 算法部分3.1 后处理3.2 center region定义3.3 center pooling3.4 Cascade corner pooling3.5 优化目标4 实验部分5 思考与总结论文信息文章链接:https://arxiv.org/abs/1904.08189作者:Kaiwen Duan单位:中科院、华为诺亚方舟实验室(实习单位)代码地址:htt...

2019-05-01 11:37:19 3336 4

原创 代码bug记录

1 shell相关bug记录(1)“./configure : /bin/sh^M : bad interpreter”在linux上源码编译安装依赖库时,执行./configure命令,提示如下错误,错误提示1:./configure : /bin/sh^M : bad interpreter错误原因:源码zip压缩包中的文件为dos格式(DOS),需要转换成unix格式待修改conf...

2019-04-24 11:24:26 606

原创 视频处理相关工具

(1)从mp4文件中抽帧步骤一:安装ffmpeg步骤二:ffmpeg -i 1001654046.mp4 -vf fps=1 thumb%04d.jpg (shell命令)

2019-04-16 12:06:33 300

原创 对坐标回归任务的思考

文章目录1 前言2 回归任务的解决办法3 参考资料最近在做文档检测任务,一开始是将其看做基于像素的二分类任务,后来看了知乎上一篇基于关键点检测的文章,“深度学习实践文档检测”,看完后感触颇多,于是这里记录下来,方便以后翻看。1 前言回归任务和分类任务的区别在于,前者是预测连续值,后者是预测离散值。受此惯性思维的影响,笔者之前一直很好奇,为什么目标检测任务的坐标预测算是回归任务呢,毕竟它输出...

2019-04-14 17:40:49 2479

原创 论文解读-FCOS:Fully Convolutional One-Stage Object Detection

文章目录1 动机2 算法思想2.1 网络结构2.2 center-ness输出分支2.3 优化目标3 实验结果4 总结5 参考资料1 动机目标检测算法可以分为两大类别,anchor-based和anchor-free算法,前者是主流的做法,比如yolo-v3、ssd、faster rcnn等,它存在如下缺点,(1)引入很多需要优化的超参数, 比如anchor number、anchor s...

2019-04-07 17:25:38 6275 5

原创 在python3中将jpg转成base64并写入json

import base64with open('./aa.jpg', 'rb') as f: qrcode = base64.b64encode(f.read()).decode() """ #The following is wrong, when json.dumps is run, it will raise error "TypeError: Object of...

2019-03-20 19:47:37 4087

原创 论文解读-Feature Selective Anchor-Free Module for Single-Shot Object Detection

文章目录1 背景知识2 动机最近部分cvpr2019的论文出来了,为了能对目标检测方向的前沿算法有更多理解,笔者趁着周末,仔细阅读了Carnegie Mellon University的这篇文章。之所以选择这一篇,一是因为标题中有"Anchor-Free",立即引起了笔者的兴趣,毕竟大部分的目标检测算法还是基于Anchor的,二是论文的第二作者是Yihui He,他在模型剪枝方向做的非常不错,...

2019-03-10 21:44:02 11346 54

原创 解析稀疏特征的embedding过程

对于有监督分类模型,输入特征有两种形式,连续型特征和离散型特征。对于常见的cv任务,比如分类、检测、分割等,输入仅为图像特征,它是连续型特征。而对于多模态分类的任务,比如短视频理解与推荐,它的输入包含了用户特征、广告特征、标题特征和视频特征。对于这种同时有连续型和离散型输入特征的情况,应该如何处理呢?一句话来说,离散型特征,需要先做one-hot编码,才能送入机器学习模型中。1 为什么要做on...

2019-03-04 20:58:28 9480 4

原创 论文解读-Bag of Freebies for Training Object Detection Neural Networks

文章目录1 动机2 改进点2.1 Visually Coherent Image Mixup3 总结4 参考资料笔者在前面的博文中解读了文章“Bag of Tricks for Image Classification with Convolutional Neural Networks”,大家感兴趣的可以参见论文解读-Bag of Tricks for Image Classificatio...

2019-03-03 21:34:37 2354

原创 服务器相关知识点

1 显卡采购(1)官方产品定位个人消费级:应用于普通pc,包括Geforce GTX1080 TI和 Titan Xp等;工业应用级:应用于数据中心,包括Tesla V100、NVIDIA T4等;(2)实际应用部署在实际采购时,应该考虑日常应用场景需求,如果没特别高的要求,从性价比上来说绝对选Geforce GTX 1080 Ti“,正如网友所说,“凡是不向外提供算法服务能力的机构,都...

2019-02-27 17:50:42 914

原创 论文解读-Bag of Tricks for Image Classification with Convolutional Neural Networks

文章目录1 动机2 baseline3 改进点3.1 训练速度3.1.1 batch size调整3.1.2 Low-precision training3.1.3 实验结果3.2 网络结构3.2.1 理论3.2.2 实验结果3.3 训练过程优化3.3.1 Cosine Learning Rate Decay3.3.2 Label Smoothing3.3.3 Knowledge Distilla...

2019-02-22 20:49:53 9191 2

原创 论文解读-Rethinking on Multi-Stage Networks for Human Pose Estimation

文章目录1 动机2 算法设计2.1 更好的single-stage module2.2 Cross Stage特征融合2.3 Coarse-to-fine Supervision3 实验结果3.1 backbone的影响3.2 stages个数的影响3.3 Cross Stage特征融合的影响3.4 Coarse-to-fine Supervision的影响3.5 高斯核的影响4 总结5 参考资...

2019-02-16 17:39:47 2626 7

原创 论文解读-Stacked Hourglass Networks for Human Pose Estimation

文章目录1 动机2 网络结构2.1 单一沙漏模块2.2 intermediate supervision2.3 堆叠沙漏模块3 实验结果4 总结5 参考资料在上一篇文章中,笔者解释了对OpenPose人体关键点检测算法的思考,它是一种“bottom-to-up”的人体姿态估计算法。为了对人体姿态估计这个方向有更加深刻的认识,笔者查阅了2018年的三大顶会(CVPR/ICCV/ECCV)的文章...

2019-01-29 14:47:43 1531

原创 论文解读-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

最近需要做视频分类相关的工作,在做技术调研过程中,了解到视频分类包含了两种形式,(1)通用的多标签视频分类,它的特点是标签为静态的,也即做分类时不需要考虑图像帧之间的关联性,因此跟基于图片的分类没什么差异了。(2)行为识别,因为是“行为”,所以这类任务需要考虑图像帧之间的关联性,比如“芭蕾舞”、“绘画”等,包含了3D卷积和Two-stream两种方法,在看了这方面的综述文章后发现是全新的方向。因为...

2019-01-27 13:44:09 2308 4

原创 目标检测算法trident network引发的思考

文章目录1 SNIP2 Trident network2.1 动机2.2 感受野和目标尺寸的关系2.3 网络结构2.3.1 SPP2.3.2 ASPP3 总结4 参考资料最新的目标检测算法“Trident Network”,单模型的mAP刷到了48.4,的确是“state-of-the-art”。笔者看了论文作者Naiyan Wang的知乎解读,感觉解释的很深刻,然后看了同行们的评论,比如有人...

2019-01-17 21:26:16 5783 2

原创 目标检测中的多尺度问题及优化-SNIP

文章目录1 检测任务的困难1.1 尺度差异1.2 domain-shift2 图像分辨率对分类任务的影响3 目标检测的影响因素3.1 图像分辨率3.2 图像中目标的尺寸3.3 数据增强3.4 结果与结论3.4.1 结果3.4.2 结论4 SNIP4.1 网络结构4.2 Q&A5 总结6 参考资料在目标检测任务中,算法的效果常常会受到多种因素的影响,比如遮挡、目标尺度变化等,在之前的一篇...

2019-01-15 16:48:31 9340 5

原创 卷积神经网络概念Q&A

1 如何计算cnn中某一层的感受野大小?回答:对于cnn中的每一个神经元,它都表征了输入图像的局部区域的信息,“感受野”指的是某一个神经元对应到输入图像的尺寸。我们都知道,越深的网络层对应的感受野越大,比如我们想知道第n层的神经元在输入图像上的感受野,那么不妨把第iii层作为“伪输入图像”,并且记该神经元在第iii层的感受野大小为RFi,其中i<=1<=nRF_{...

2019-01-11 18:27:37 441

原创 目标检测中的遮挡问题及优化

尽管目标检测算法整体上已经相对比较成熟,但是在特殊场景下的表现还有很多优化空间,比如图片中的目标有遮挡、图像运动模糊、目标为可改变形状的非刚性物体等。本文主要是针对遮挡问题,之前在做游戏目标检测时也遇到过这个问题,当时只是考虑增加训练样本的多样性,最近,笔者读了几篇解决目标检测中的遮挡问题的文章,也看了一些网友的解析,觉得若有所悟,不自觉地想把自己的理解记录下来,自认为“一万个人眼中有一万个哈姆雷...

2019-01-11 11:54:15 37732 3

原创 目标检测后处理:从nms到softer nms

对于目标检测算法,它包含了三个要素:Backbone + Head + Postprocess,上一篇文章介绍了Light Head R-CNN,它是对“head”部分的优化,对于Postprocess部分,最早用的是NMS,后面出现了Soft NMS和Softer NMS,本文将分别解释它们的动机和原理,希望能对大家有所帮助。1 NMSNMS,它的全称为“non-maximum supres...

2019-01-06 18:58:11 8286 13

原创 人脸检测算法理解之mtcnn

最近在一次交流活动中,再次听别人讲人脸检测算法mtcnn,虽然以前也断断续续听过两次,对于一些技术细节仍不清楚,为了解决自己的困惑,笔者又重拾起这一算法,在认真研读论文和思考后有了新的理解,于是记录下来。下文主要解释mtcnn中min_face_size这个参数是怎么起作用的、如何使用图像金字塔等,希望能对大家有所帮忙。1 相关知识点1.1 “network in network”作为新加坡...

2018-12-30 16:12:57 3497 3

原创 理解目标检测算法之Light Head R-CNN

文章目录1 动机2 网络结构3 实验结果4 个人总结对于目标检测任务,输入图像通常都要经历3个步骤,Backbone + Head + Postprocess(NMS),目标检测算法的优化,通常也是围绕着这3个方面展开的。针对Backbone的优化有DetNet,针对Head的优化有Light head R-CNN,针对Postprocess的优化有soft nms和softer nms。值得...

2018-12-23 18:41:59 1803

原创 理解目标检测算法之R-FCN

在上一篇博文中,笔者写到了对Roi Pooling和Roi Align的区别的理解,当时不禁觉得Mask rcnn引入了Roi Align操作,进一步优化了目标检测任务的定位精度,然后在想,如果想继续优化,又有什么可供优化的方向呢,百思不得其解。后来又一次跟同事交流这个问题,然后无意间了解到凯明大神后面又联合提出了R-FCN。然后笔者查阅了一些资料和原论文,有了自己的一些理解和体会,故这里记录下来...

2018-12-23 14:35:29 1636

原创 目标检测算法Q&A

1. 目标检测问题1. Yolo和SSD的区别是什么?回答:YOLO定位精度差,小目标检出率低;SSD是YOLO的多尺度版本,对小目标检出有改善。2. R-CNN、Fast-rcnn、Faster-rcnn的区别是什么?回答:(1)R-CNN使用selective search,然后对每个预选框做分类,缺点为穷举所有框很耗时;(2)Fast-rcnn使用selective search...

2018-12-19 19:38:27 317

原创 人工特征之SIFT和HOG

文章目录1 SIFT(局部特征)1.1 特征点检测1.2 特征点描述1.3 特征点匹配2 HOG(全局特征)2.1 特征描述子2.2 HOG特征提取步骤计算机视觉相关的任务都需要先提取特征,然后基于所提取的特征做分类、分割、视觉问答等任务。现在主流的提取特征的方法,都是采用神经网络自动提取对任务起作用的特征,使用人工设计的特征已经成为过去时了。然而,笔者认为,对于每一个算法,找准它的细分领域,...

2018-12-12 10:45:43 5641 1

原创 理解yolo系列目标检测算法

在计算机视觉任务中,如果说做的最成熟的是图像识别领域,那么紧随其后的应该就是目标检测了。笔者接触目标检测也有一段时间了,用mobilenet_ssd算法做过手机端的实时目标检测,也用faster-rcnn做过服务器端的二维码检测,尽管一直都知道yolo的效果也很不错,但没抽出时间细细研究,最近刚好闲出空来,就把yolo系列算法论文细读了一遍,在思考的过程中,也使我对之前的知识点有了新的体会,这里一...

2018-11-18 18:17:40 8726 1

原创 深度学习算法效果提升-数据

       在初学机器学习的时候,常常看到一些博友提到,做机器学习80%以上的时间都用在了处理数据上,当初不以为然。现在工作也一年多了,在实际的项目中深深地体会到了这种说法的合理性。对于深度学习算法而言,提升效果最明

2018-11-04 21:00:04 938

原创 深度学习算法效果提升-网络结构

1. 前言  优化深度学习算法的效果可以从三个方面入手,数据+网络结构+损失函数。一般来说,外行改网络结构,内行改损失函数,公司层面收集数据。  在一般情况下,特别是手机端应用,直接拿个成熟的小网络进行迁移学习,如shufflenet、mobilenet等,是较为常见的做法。而且,由于一些开源框架提供了官方预训练的模型,只要自己的数据集和imagenet的数据类别出入不大,在其基础上做fine...

2018-11-03 21:52:01 4513

原创 对Image caption的一些理解(看图说话)

1. 背景​ 在计算机视觉中,图像分类和目标检测任务是比较成熟的领域,已经应用到实际的产品领域。而“看图说话”要实现的功能是,给定一张图像,计算机能告诉我们图片的内容,显然,这会使一个比较复杂的任务,因为它涉及到了如下的子任务:1)检测图像中的目标;2)目标的属性,比如颜色、尺寸等;3)目标之间的关联;4)语言模型,用于把上面的信息表述成句子;2. 相关的论文2.1 “...

2018-10-29 19:08:45 6153

原创 强化学习浅谈

  一直对强化学习很感兴趣,毕业前那会也尝试着去学习,但因为当时感觉强化学习的公式晦涩难懂,没能坚持下去。最近因工作需要,又重新开始啃强化学习的知识,发现有了新的体会,故在此记录一下,以便以后随时翻看查阅。   机器学习包含了三大分支,有监督学习(或半监督)、无监督学习和强化学习。同前两者相比,强化学习具有如下特点,   (1) 没有“supervisor”,只有“reward”信号;   ...

2018-08-26 12:43:48 17183 4

原创 目标检测算法理解:从R-CNN到Mask R-CNN

目标检测算法理解:从R-CNN到Mask R-CNN  因为工作了以后时间比较琐碎,所以更多的时候使用onenote记录知识点,但是对于一些算法层面的东西,个人的理解毕竟是有局限的。我一直做的都是图像分类方向,最近开始接触了目标检测,也看了一些大牛的论文,虽然网上已经有很多相关的算法讲解,但是每个人对同一个问题的理解都不太一样,本文主要结合自己的理解做一下记录,也欢迎大家批评指正~  在讲解obje

2017-10-30 21:37:52 1871

原创 matlab显示文件夹下的多副图像

最近在写深度学习算法方案的时候,需要在方案书附录中对imagenet数据集可视化,但imagenet数据集中的图像大小并不完全相同,经过一番努力,显示效果才达到导师的要求,故这里把我实现过程中的小问题记录下来,方便以后参考。   在写机器学习方面的paper时,通常需要可视化数据集。比如人脸数据集,通常每一个子文件夹下包含了一类人脸图像(这些人脸图像的大小可以各不相同、文件的命名可以没有任何规律)

2017-03-09 10:25:58 990

原创 生成对抗网络(GAN)应用于图像分类

近年来,深度学习技术被广泛应用于各类数据处理任务中,比如图像、语音和文本。而生成对抗网络(GAN)和强化学习(RL)已经成为了深度学习框架中的两颗“明珠”。强化学习主要用于决策问题,主要的应用就是游戏,比如deepmind团队的AlphaGo。因为我的研究方向是高光谱图像的有监督分类问题,故本文主要讲解生成对抗网络及其在分类问题方面的应用。生成对抗网络框架  生成对抗网络(Generative ad

2017-02-15 22:28:39 57037 58

原创 TensorFlow中Sequence-to-Sequence样例代码详解

在NLP领域,sequence to sequence模型有很多应用,比如机器翻译、自动应答机器人等。在看懂了相关的论文后,我开始研读TensorFlow提供的源代码,刚开始看时感觉非常晦涩,现在基本都弄懂了,我在这里主要介绍Sequence-to-Sequence Models用到的理论,然后对源代码进行详解,也算是对自己这两周的学习进行一下总结,如果也能够对您有所帮助的话,那就再好不过了~seq

2016-12-12 22:43:29 25106 17

原创 SVM的原问题和对偶问题模型

这两天,我翻开沉压已久的学习笔记,看到了当初总结的SVM学习心得,为了避免不小心弄丢了,就在这里重新记录一下吧,希望对初学机器学习理论并热爱公式推导的朋友有所帮助。SVM作为一种经典的机器学习算法,在处理“小样本”问题时效果非常显著。本文主要分成三大部分,第一部分介绍一些基本知识,这些知识在SVM的公式推导过程中会用到,所以最先介绍。第二部分针对数据集线性可分的情况,推导SVM的原问题和对偶问题表达

2016-11-29 18:12:59 12138

原创 TensorFlow中RNN样例代码详解

关于RNN的理论部分已经在上一篇文章中讲过了,本文主要讲解RNN在TensorFlow中的实现。与theano不同,TensorFlow在一个更加抽象的层次上实现了RNN单元,所以调用tensorflow的API来实现RNN是比较容易的。这里先介绍TensorFlow中与RNN相关的几个比较常用的函数,  (1)cell = tf.nn.rnn_cell.BasicLSTMCell(num_unit

2016-11-28 22:11:22 29068 14

原创 从循环神经网络(RNN)到LSTM网络

从循环神经网络(RNN)到LSTM网络  通常,数据的存在形式有语音、文本、图像、视频等。因为我的研究方向主要是图像识别,所以很少用有“记忆性”的深度网络。怀着对循环神经网络的兴趣,在看懂了有关它的理论后,我又看了Github上提供的tensorflow实现,觉得收获很大,故在这里把我的理解记录下来,也希望对大家能有所帮助。本文将主要介绍RNN相关的理论,并引出LSTM网络结构(关于对tensorf

2016-11-27 17:35:29 20212 5

原创 theano编程错误及解决方法

最近在做科研过程中,用到了theano符号计算框架,我在原有程序的基础上做了改动,但程序一直报错,而theano程序又比较难调试,甚是纠结,在反复测试了好久后才弄明白,故在这里把它们记录下来,以免自己以后可能陷入同一个“坑”。(1)错误提示“UnboundLocalError: local variable ‘e0’ referenced before    assignment”;    错误样

2016-11-23 09:48:42 1858

原创 从GoogLeNet架构到deep dream模型

虽然深度神经网络在计算机视觉方面的效果非常显著,但至今还没有非常严格的理论支撑。最开始学习CNN的时候,采用的都是手写体识别的例子,对其最直观的解释即随着层数增加,所学到的特征越来越抽象(大致按照“点-> 线->角->整体轮廓”的顺序)。同样地,谷歌技术团队在训练他们的GoogLeNet网络时,为了对网络所学到的特征有更好的理解,他们在特征可视化方面做了很多努力,同时也发现了一些美轮美奂的图画(如下

2016-11-22 22:02:15 4041

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除