自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 tensorrt server如何支持Pytorch模型

笔者这里先抛出一个问题,tensorrt server和tensorrt有什么关系吗? 大家可以思考一下哈

2019-07-27 16:56:39 482 0

原创 在启动tensorrt server服务时提示"libopencv_highgui.so not found"

在使用tensorrt server的ensemble models功能时,笔者把预处理打包成了一个.so文件,分类模型使用的是.pb文件,但是当使用nvidia-docker命令启动trt server镜像时,报了错误"libopencv_highgui.so.2.4 not foun...

2019-07-26 22:05:58 315 2

原创 论文解读-CenterNet:Keypoint Triplets for Object Detection

文章目录1 背景2 动机3 算法部分3.1 后处理3.2 center region定义3.3 center pooling3.4 Cascade corner pooling3.5 优化目标4 实验部分5 思考与总结 论文信息 文章链接:https://arxiv.org/abs/1904.0...

2019-05-01 11:37:19 1619 4

原创 代码bug记录

1 shell相关bug记录 (1)“./configure : /bin/sh^M : bad interpreter” 在linux上源码编译安装依赖库时,执行./configure命令,提示如下错误, 错误提示1:./configure : /bin/sh^M : bad interpret...

2019-04-24 11:24:26 280 0

原创 视频处理相关工具

(1)从mp4文件中抽帧 步骤一: 安装ffmpeg 步骤二: ffmpeg -i 1001654046.mp4 -vf fps=1 thumb%04d.jpg (shell命令)

2019-04-16 12:06:33 162 0

原创 对坐标回归任务的思考

文章目录1 前言2 回归任务的解决办法3 参考资料 最近在做文档检测任务,一开始是将其看做基于像素的二分类任务,后来看了知乎上一篇基于关键点检测的文章,“深度学习实践文档检测”,看完后感触颇多,于是这里记录下来,方便以后翻看。 1 前言 回归任务和分类任务的区别在于,前者是预测连续值,后者是预测...

2019-04-14 17:40:49 980 0

原创 论文解读-FCOS:Fully Convolutional One-Stage Object Detection

文章目录1 动机2 算法思想2.1 网络结构2.2 center-ness输出分支2.3 优化目标3 实验结果4 总结5 参考资料 1 动机 目标检测算法可以分为两大类别,anchor-based和anchor-free算法,前者是主流的做法,比如yolo-v3、ssd、faster rcnn等...

2019-04-07 17:25:38 2420 1

原创 在python3中将jpg转成base64并写入json

import base64 with open('./aa.jpg', 'rb') as f: qrcode = base64.b64encode(f.read()).decode() """ #The...

2019-03-20 19:47:37 1957 0

原创 论文解读-Feature Selective Anchor-Free Module for Single-Shot Object Detection

文章目录1 背景知识2 动机 最近部分cvpr2019的论文出来了,为了能对目标检测方向的前沿算法有更多理解,笔者趁着周末,仔细阅读了Carnegie Mellon University的这篇文章。之所以选择这一篇,一是因为标题中有"Anch...

2019-03-10 21:44:02 7693 54

原创 解析稀疏特征的embedding过程

对于有监督分类模型,输入特征有两种形式,连续型特征和离散型特征。对于常见的cv任务,比如分类、检测、分割等,输入仅为图像特征,它是连续型特征。而对于多模态分类的任务,比如短视频理解与推荐,它的输入包含了用户特征、广告特征、标题特征和视频特征。对于这种同时有连续型和离散型输入特征的情况,应该如何处理...

2019-03-04 20:58:28 4212 2

原创 论文解读-Bag of Freebies for Training Object Detection Neural Networks

文章目录1 动机2 改进点2.1 Visually Coherent Image Mixup3 总结4 参考资料 笔者在前面的博文中解读了文章“Bag of Tricks for Image Classification with Convolutional Neural Networks”,大...

2019-03-03 21:34:37 1451 0

原创 服务器相关知识点

1 显卡采购 (1)官方产品定位 个人消费级:应用于普通pc,包括Geforce GTX1080 TI和 Titan Xp等; 工业应用级:应用于数据中心,包括Tesla V100、NVIDIA T4等; (2)实际应用部署 在实际采购时,应该考虑日常应用场景需求,如果没特别高的要求,从性价比上来...

2019-02-27 17:50:42 487 0

原创 论文解读-Bag of Tricks for Image Classification with Convolutional Neural Networks

文章目录1 动机2 baseline3 改进点3.1 训练速度3.1.1 batch size调整3.1.2 Low-precision training3.1.3 实验结果3.2 网络结构3.2.1 理论3.2.2 实验结果3.3 训练过程优化3.3.1 Cosine Learning Rate...

2019-02-22 20:49:53 2659 0

原创 论文解读-Rethinking on Multi-Stage Networks for Human Pose Estimation

文章目录1 动机2 算法设计2.1 更好的single-stage module2.2 Cross Stage特征融合2.3 Coarse-to-fine Supervision3 实验结果3.1 backbone的影响3.2 stages个数的影响3.3 Cross Stage特征融合的影响3...

2019-02-16 17:39:47 1239 4

原创 论文解读-Stacked Hourglass Networks for Human Pose Estimation

文章目录1 动机2 网络结构2.1 单一沙漏模块2.2 intermediate supervision2.3 堆叠沙漏模块3 实验结果4 总结5 参考资料 在上一篇文章中,笔者解释了对OpenPose人体关键点检测算法的思考,它是一种“bottom-to-up”的人体姿态估计算法。为了对人体...

2019-01-29 14:47:43 388 0

原创 论文解读-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

最近需要做视频分类相关的工作,在做技术调研过程中,了解到视频分类包含了两种形式,(1)通用的多标签视频分类,它的特点是标签为静态的,也即做分类时不需要考虑图像帧之间的关联性,因此跟基于图片的分类没什么差异了。(2)行为识别,因为是“行为”,所以这类任务需要考虑图像帧之间的关联性,比如“芭蕾舞”、“...

2019-01-27 13:44:09 957 4

原创 目标检测算法trident network引发的思考

文章目录1 SNIP2 Trident network2.1 动机2.2 感受野和目标尺寸的关系2.3 网络结构2.3.1 SPP2.3.2 ASPP3 总结4 参考资料 最新的目标检测算法“Trident Network”,单模型的mAP刷到了48.4,的确是“state-of-the-art...

2019-01-17 21:26:16 3520 2

原创 目标检测中的多尺度问题及优化-SNIP

文章目录1 检测任务的困难1.1 尺度差异1.2 domain-shift2 图像分辨率对分类任务的影响3 目标检测的影响因素3.1 图像分辨率3.2 图像中目标的尺寸3.3 数据增强3.4 结果与结论3.4.1 结果3.4.2 结论4 SNIP4.1 网络结构4.2 Q&...

2019-01-15 16:48:31 4194 0

原创 卷积神经网络概念Q&A

1 如何计算cnn中某一层的感受野大小? 回答: 对于cnn中的每一个神经元,它都表征了输入图像的局部区域的信息,“感受野”指的是某一个神经元对应到输入图像的尺寸。 我们都知道,越深的网络层对应的感受野越大,比如我们想知道第n层的神经元在输入图像上的感受野,那么不妨把第iii层作为“伪输入图...

2019-01-11 18:27:37 143 0

原创 目标检测中的遮挡问题及优化

尽管目标检测算法整体上已经相对比较成熟,但是在特殊场景下的表现还有很多优化空间,比如图片中的目标有遮挡、图像运动模糊、目标为可改变形状的非刚性物体等。本文主要是针对遮挡问题,之前在做游戏目标检测时也遇到过这个问题,当时只是考虑增加训练样本的多样性,最近,笔者读了几篇解决目标检测中的遮挡问题的文章,...

2019-01-11 11:54:15 13444 2

原创 目标检测后处理:从nms到softer nms

对于目标检测算法,它包含了三个要素:Backbone + Head + Postprocess,上一篇文章介绍了Light Head R-CNN,它是对“head”部分的优化,对于Postprocess部分,最早用的是NMS,后面出现了Soft NMS和Softer NMS,本文将分别解释它们的动...

2019-01-06 18:58:11 3772 13

原创 人脸检测算法理解之mtcnn

最近在一次交流活动中,再次听别人讲人脸检测算法mtcnn,虽然以前也断断续续听过两次,对于一些技术细节仍不清楚,为了解决自己的困惑,笔者又重拾起这一算法,在认真研读论文和思考后有了新的理解,于是记录下来。下文主要解释mtcnn中min_face_size这个参数是怎么起作用的、如何使用图像金字塔等...

2018-12-30 16:12:57 946 2

原创 理解目标检测算法之Light Head R-CNN

文章目录1 动机2 网络结构3 实验结果4 个人总结 对于目标检测任务,输入图像通常都要经历3个步骤,Backbone + Head + Postprocess(NMS),目标检测算法的优化,通常也是围绕着这3个方面展开的。针对Backbone的优化有DetNet,针对Head的优化有Light...

2018-12-23 18:41:59 773 0

原创 理解目标检测算法之R-FCN

在上一篇博文中,笔者写到了对Roi Pooling和Roi Align的区别的理解,当时不禁觉得Mask rcnn引入了Roi Align操作,进一步优化了目标检测任务的定位精度,然后在想,如果想继续优化,又有什么可供优化的方向呢,百思不得其解。后来又一次跟同事交流这个问题,然后无意间了解到凯明大...

2018-12-23 14:35:29 281 0

原创 目标检测算法Q&A

1. 目标检测问题 1. Yolo和SSD的区别是什么? 回答:YOLO定位精度差,小目标检出率低;SSD是YOLO的多尺度版本,对小目标检出有改善。 2. R-CNN、Fast-rcnn、Faster-rcnn的区别是什么? 回答: (1)R-CNN使用selective search...

2018-12-19 19:38:27 151 0

原创 人工特征之SIFT和HOG

文章目录1 SIFT(局部特征)1.1 特征点检测1.2 特征点描述1.3 特征点匹配2 HOG(全局特征)2.1 特征描述子2.2 HOG特征提取步骤 计算机视觉相关的任务都需要先提取特征,然后基于所提取的特征做分类、分割、视觉问答等任务。现在主流的提取特征的方法,都是采用神经网络自动提取对任...

2018-12-12 10:45:43 1926 0

原创 理解yolo系列目标检测算法

在计算机视觉任务中,如果说做的最成熟的是图像识别领域,那么紧随其后的应该就是目标检测了。笔者接触目标检测也有一段时间了,用mobilenet_ssd算法做过手机端的实时目标检测,也用faster-rcnn做过服务器端的二维码检测,尽管一直都知道yolo的效果也很不错,但没抽出时间细细研究,最近刚好...

2018-11-18 18:17:40 2113 0

原创 深度学习算法效果提升-数据

      &...

2018-11-04 21:00:04 328 0

原创 深度学习算法效果提升-网络结构

1. 前言   优化深度学习算法的效果可以从三个方面入手,数据+网络结构+损失函数。一般来说,外行改网络结构,内行改损失函数,公司层面收集数据。   在一般情况下,特别是手机端应用,直接拿个成熟的小网络进行迁移学习,如shufflenet、mobilenet等,是较为常见的做法。而且,由于一些...

2018-11-03 21:52:01 2653 0

原创 对Image caption的一些理解(看图说话)

1. 背景 ​ 在计算机视觉中,图像分类和目标检测任务是比较成熟的领域,已经应用到实际的产品领域。而“看图说话”要实现的功能是,给定一张图像,计算机能告诉我们图片的内容,显然,这会使一个比较复杂的任务,因为它涉及到了如下的子任务: 1)检测图像中的目标; 2)目标的属性,比如颜色、尺...

2018-10-29 19:08:45 2529 0

原创 强化学习浅谈

  一直对强化学习很感兴趣,毕业前那会也尝试着去学习,但因为当时感觉强化学习的公式晦涩难懂,没能坚持下去。最近因工作需要,又重新开始啃强化学习的知识,发现有了新的体会,故在此记录一下,以便以后随时翻看查阅。   机器学习包含了三大分支,有监督学习(或半监督)、无监督学习和强化学习。同前两者相比...

2018-08-26 12:43:48 13900 4

原创 目标检测算法理解:从R-CNN到Mask R-CNN

目标检测算法理解:从R-CNN到Mask R-CNN  因为工作了以后时间比较琐碎,所以更多的时候使用onenote记录知识点,但是对于一些算法层面的东西,个人的理解毕竟是有局限的。我一直做的都是图像分类方向,最近开始接触了目标检测,也看了一些大牛的论文,虽然网上已经有很多相关的算法讲解,但是每个...

2017-10-30 21:37:52 1349 0

原创 matlab显示文件夹下的多副图像

最近在写深度学习算法方案的时候,需要在方案书附录中对imagenet数据集可视化,但imagenet数据集中的图像大小并不完全相同,经过一番努力,显示效果才达到导师的要求,故这里把我实现过程中的小问题记录下来,方便以后参考。   在写机器学习方面的paper时,通常需要可视化数据集。比如人脸数据...

2017-03-09 10:25:58 682 0

原创 生成对抗网络(GAN)应用于图像分类

近年来,深度学习技术被广泛应用于各类数据处理任务中,比如图像、语音和文本。而生成对抗网络(GAN)和强化学习(RL)已经成为了深度学习框架中的两颗“明珠”。强化学习主要用于决策问题,主要的应用就是游戏,比如deepmind团队的AlphaGo。因为我的研究方向是高光谱图像的有监督分类问题,故本文主...

2017-02-15 22:28:39 35653 51

原创 TensorFlow中Sequence-to-Sequence样例代码详解

在NLP领域,sequence to sequence模型有很多应用,比如机器翻译、自动应答机器人等。在看懂了相关的论文后,我开始研读TensorFlow提供的源代码,刚开始看时感觉非常晦涩,现在基本都弄懂了,我在这里主要介绍Sequence-to-Sequence Models用到的理论,然后对...

2016-12-12 22:43:29 21631 17

原创 SVM的原问题和对偶问题模型

这两天,我翻开沉压已久的学习笔记,看到了当初总结的SVM学习心得,为了避免不小心弄丢了,就在这里重新记录一下吧,希望对初学机器学习理论并热爱公式推导的朋友有所帮助。SVM作为一种经典的机器学习算法,在处理“小样本”问题时效果非常显著。本文主要分成三大部分,第一部分介绍一些基本知识,这些知识在SVM...

2016-11-29 18:12:59 9656 0

原创 TensorFlow中RNN样例代码详解

关于RNN的理论部分已经在上一篇文章中讲过了,本文主要讲解RNN在TensorFlow中的实现。与theano不同,TensorFlow在一个更加抽象的层次上实现了RNN单元,所以调用tensorflow的API来实现RNN是比较容易的。这里先介绍TensorFlow中与RNN相关的几个比较常用的...

2016-11-28 22:11:22 27069 14

原创 从循环神经网络(RNN)到LSTM网络

从循环神经网络(RNN)到LSTM网络  通常,数据的存在形式有语音、文本、图像、视频等。因为我的研究方向主要是图像识别,所以很少用有“记忆性”的深度网络。怀着对循环神经网络的兴趣,在看懂了有关它的理论后,我又看了Github上提供的tensorflow实现,觉得收获很大,故在这里把我的理解记录下...

2016-11-27 17:35:29 17765 5

原创 theano编程错误及解决方法

最近在做科研过程中,用到了theano符号计算框架,我在原有程序的基础上做了改动,但程序一直报错,而theano程序又比较难调试,甚是纠结,在反复测试了好久后才弄明白,故在这里把它们记录下来,以免自己以后可能陷入同一个“坑”。(1)错误提示“UnboundLocalError: local var...

2016-11-23 09:48:42 1393 0

原创 从GoogLeNet架构到deep dream模型

虽然深度神经网络在计算机视觉方面的效果非常显著,但至今还没有非常严格的理论支撑。最开始学习CNN的时候,采用的都是手写体识别的例子,对其最直观的解释即随着层数增加,所学到的特征越来越抽象(大致按照“点-> 线->角->整体轮廓”的顺序)。同样地,谷歌技术团队在训练他们的GoogL...

2016-11-22 22:02:15 3541 0

提示
确定要删除当前文章?
取消 删除