diligent_321-CSDN博客

原创 tensorrt server如何支持Pytorch模型

笔者这里先抛出一个问题，tensorrt server和tensorrt有什么关系吗？大家可以思考一下哈

2019-07-27 16:56:39 1869 1

原创在启动tensorrt server服务时提示"libopencv_highgui.so not found"

在使用tensorrt server的ensemble models功能时，笔者把预处理打包成了一个.so文件，分类模型使用的是.pb文件，但是当使用nvidia-docker命令启动trt server镜像时，报了错误"libopencv_highgui.so.2.4 not found"，笔者踩了一些坑，终于找到了问题的原因，这里记录下来，方便以后随时翻看。预处理的.so调用了opencv库...

2019-07-26 22:05:58 1691 2

原创论文解读-CenterNet：Keypoint Triplets for Object Detection

文章目录1 背景2 动机3 算法部分3.1 后处理3.2 center region定义3.3 center pooling3.4 Cascade corner pooling3.5 优化目标4 实验部分5 思考与总结论文信息文章链接：https://arxiv.org/abs/1904.08189作者：Kaiwen Duan单位：中科院、华为诺亚方舟实验室（实习单位）代码地址：htt...

2019-05-01 11:37:19 3713 4

原创代码bug记录

1 shell相关bug记录（1）“./configure : /bin/sh^M : bad interpreter”在linux上源码编译安装依赖库时，执行./configure命令，提示如下错误，错误提示1：./configure : /bin/sh^M : bad interpreter错误原因：源码zip压缩包中的文件为dos格式(DOS)，需要转换成unix格式待修改conf...

2019-04-24 11:24:26 716

原创视频处理相关工具

（1）从mp4文件中抽帧步骤一：安装ffmpeg步骤二：ffmpeg -i 1001654046.mp4 -vf fps=1 thumb%04d.jpg （shell命令）

2019-04-16 12:06:33 367

原创对坐标回归任务的思考

文章目录1 前言2 回归任务的解决办法3 参考资料最近在做文档检测任务，一开始是将其看做基于像素的二分类任务，后来看了知乎上一篇基于关键点检测的文章，“深度学习实践文档检测”，看完后感触颇多，于是这里记录下来，方便以后翻看。1 前言回归任务和分类任务的区别在于，前者是预测连续值，后者是预测离散值。受此惯性思维的影响，笔者之前一直很好奇，为什么目标检测任务的坐标预测算是回归任务呢，毕竟它输出...

2019-04-14 17:40:49 2763

原创论文解读-FCOS:Fully Convolutional One-Stage Object Detection

文章目录1 动机2 算法思想2.1 网络结构2.2 center-ness输出分支2.3 优化目标3 实验结果4 总结5 参考资料1 动机目标检测算法可以分为两大类别，anchor-based和anchor-free算法，前者是主流的做法，比如yolo-v3、ssd、faster rcnn等，它存在如下缺点，（1）引入很多需要优化的超参数，比如anchor number、anchor s...

2019-04-07 17:25:38 6578 5

原创在python3中将jpg转成base64并写入json

import base64with open('./aa.jpg', 'rb') as f: qrcode = base64.b64encode(f.read()).decode() """ #The following is wrong, when json.dumps is run, it will raise error "TypeError: Object of...

2019-03-20 19:47:37 4255

原创论文解读-Feature Selective Anchor-Free Module for Single-Shot Object Detection

文章目录1 背景知识2 动机最近部分cvpr2019的论文出来了，为了能对目标检测方向的前沿算法有更多理解，笔者趁着周末，仔细阅读了Carnegie Mellon University的这篇文章。之所以选择这一篇，一是因为标题中有&amp;amp;amp;quot;Anchor-Free&amp;amp;amp;quot;，立即引起了笔者的兴趣，毕竟大部分的目标检测算法还是基于Anchor的，二是论文的第二作者是Yihui He，他在模型剪枝方向做的非常不错，...

2019-03-10 21:44:02 11753 55

原创解析稀疏特征的embedding过程

对于有监督分类模型，输入特征有两种形式，连续型特征和离散型特征。对于常见的cv任务，比如分类、检测、分割等，输入仅为图像特征，它是连续型特征。而对于多模态分类的任务，比如短视频理解与推荐，它的输入包含了用户特征、广告特征、标题特征和视频特征。对于这种同时有连续型和离散型输入特征的情况，应该如何处理呢？一句话来说，离散型特征，需要先做one-hot编码，才能送入机器学习模型中。1 为什么要做on...

2019-03-04 20:58:28 9898 4

原创论文解读-Bag of Freebies for Training Object Detection Neural Networks

文章目录1 动机2 改进点2.1 Visually Coherent Image Mixup3 总结4 参考资料笔者在前面的博文中解读了文章“Bag of Tricks for Image Classification with Convolutional Neural Networks”，大家感兴趣的可以参见论文解读-Bag of Tricks for Image Classificatio...

2019-03-03 21:34:37 2676

原创服务器相关知识点

1 显卡采购（1）官方产品定位个人消费级：应用于普通pc，包括Geforce GTX1080 TI和 Titan Xp等；工业应用级：应用于数据中心，包括Tesla V100、NVIDIA T4等；（2）实际应用部署在实际采购时，应该考虑日常应用场景需求，如果没特别高的要求，从性价比上来说绝对选Geforce GTX 1080 Ti“，正如网友所说，“凡是不向外提供算法服务能力的机构，都...

2019-02-27 17:50:42 1038

原创论文解读-Bag of Tricks for Image Classification with Convolutional Neural Networks

文章目录1 动机2 baseline3 改进点3.1 训练速度3.1.1 batch size调整3.1.2 Low-precision training3.1.3 实验结果3.2 网络结构3.2.1 理论3.2.2 实验结果3.3 训练过程优化3.3.1 Cosine Learning Rate Decay3.3.2 Label Smoothing3.3.3 Knowledge Distilla...

2019-02-22 20:49:53 10051 2

原创论文解读-Rethinking on Multi-Stage Networks for Human Pose Estimation

文章目录1 动机2 算法设计2.1 更好的single-stage module2.2 Cross Stage特征融合2.3 Coarse-to-fine Supervision3 实验结果3.1 backbone的影响3.2 stages个数的影响3.3 Cross Stage特征融合的影响3.4 Coarse-to-fine Supervision的影响3.5 高斯核的影响4 总结5 参考资...

2019-02-16 17:39:47 3170 7

原创论文解读-Stacked Hourglass Networks for Human Pose Estimation

文章目录1 动机2 网络结构2.1 单一沙漏模块2.2 intermediate supervision2.3 堆叠沙漏模块3 实验结果4 总结5 参考资料在上一篇文章中，笔者解释了对OpenPose人体关键点检测算法的思考，它是一种“bottom-to-up”的人体姿态估计算法。为了对人体姿态估计这个方向有更加深刻的认识，笔者查阅了2018年的三大顶会(CVPR/ICCV/ECCV)的文章...

2019-01-29 14:47:43 1840

原创论文解读-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

最近需要做视频分类相关的工作，在做技术调研过程中，了解到视频分类包含了两种形式，（1）通用的多标签视频分类，它的特点是标签为静态的，也即做分类时不需要考虑图像帧之间的关联性，因此跟基于图片的分类没什么差异了。（2）行为识别，因为是“行为”，所以这类任务需要考虑图像帧之间的关联性，比如“芭蕾舞”、“绘画”等，包含了3D卷积和Two-stream两种方法，在看了这方面的综述文章后发现是全新的方向。因为...

2019-01-27 13:44:09 2605 4

原创目标检测算法trident network引发的思考

文章目录1 SNIP2 Trident network2.1 动机2.2 感受野和目标尺寸的关系2.3 网络结构2.3.1 SPP2.3.2 ASPP3 总结4 参考资料最新的目标检测算法“Trident Network”，单模型的mAP刷到了48.4，的确是“state-of-the-art”。笔者看了论文作者Naiyan Wang的知乎解读，感觉解释的很深刻，然后看了同行们的评论，比如有人...

2019-01-17 21:26:16 6226 2

原创目标检测中的多尺度问题及优化-SNIP

文章目录1 检测任务的困难1.1 尺度差异1.2 domain-shift2 图像分辨率对分类任务的影响3 目标检测的影响因素3.1 图像分辨率3.2 图像中目标的尺寸3.3 数据增强3.4 结果与结论3.4.1 结果3.4.2 结论4 SNIP4.1 网络结构4.2 Q&amp;A5 总结6 参考资料在目标检测任务中，算法的效果常常会受到多种因素的影响，比如遮挡、目标尺度变化等，在之前的一篇...

2019-01-15 16:48:31 10164 5

原创卷积神经网络概念Q&A

1 如何计算cnn中某一层的感受野大小？回答：对于cnn中的每一个神经元，它都表征了输入图像的局部区域的信息，“感受野”指的是某一个神经元对应到输入图像的尺寸。我们都知道，越深的网络层对应的感受野越大，比如我们想知道第n层的神经元在输入图像上的感受野，那么不妨把第iii层作为“伪输入图像”，并且记该神经元在第iii层的感受野大小为RFi，其中i&amp;amp;amp;lt;=1&amp;amp;amp;lt;=nRF_{...

2019-01-11 18:27:37 541

原创目标检测中的遮挡问题及优化

尽管目标检测算法整体上已经相对比较成熟，但是在特殊场景下的表现还有很多优化空间，比如图片中的目标有遮挡、图像运动模糊、目标为可改变形状的非刚性物体等。本文主要是针对遮挡问题，之前在做游戏目标检测时也遇到过这个问题，当时只是考虑增加训练样本的多样性，最近，笔者读了几篇解决目标检测中的遮挡问题的文章，也看了一些网友的解析，觉得若有所悟，不自觉地想把自己的理解记录下来，自认为“一万个人眼中有一万个哈姆雷...

2019-01-11 11:54:15 39605 3

原创目标检测后处理：从nms到softer nms

对于目标检测算法，它包含了三个要素：Backbone + Head + Postprocess，上一篇文章介绍了Light Head R-CNN，它是对“head”部分的优化，对于Postprocess部分，最早用的是NMS，后面出现了Soft NMS和Softer NMS，本文将分别解释它们的动机和原理，希望能对大家有所帮助。1 NMSNMS，它的全称为“non-maximum supres...

2019-01-06 18:58:11 8805 13

原创人脸检测算法理解之mtcnn

最近在一次交流活动中，再次听别人讲人脸检测算法mtcnn，虽然以前也断断续续听过两次，对于一些技术细节仍不清楚，为了解决自己的困惑，笔者又重拾起这一算法，在认真研读论文和思考后有了新的理解，于是记录下来。下文主要解释mtcnn中min_face_size这个参数是怎么起作用的、如何使用图像金字塔等，希望能对大家有所帮忙。1 相关知识点1.1 “network in network”作为新加坡...

2018-12-30 16:12:57 3681 3

原创理解目标检测算法之Light Head R-CNN

文章目录1 动机2 网络结构3 实验结果4 个人总结对于目标检测任务，输入图像通常都要经历３个步骤，Backbone + Head + Postprocess(NMS)，目标检测算法的优化，通常也是围绕着这３个方面展开的。针对Backbone的优化有DetNet，针对Head的优化有Light head R-CNN，针对Postprocess的优化有soft nms和softer nms。值得...

2018-12-23 18:41:59 2036

原创理解目标检测算法之R-FCN

在上一篇博文中，笔者写到了对Roi Pooling和Roi Align的区别的理解，当时不禁觉得Mask rcnn引入了Roi Align操作，进一步优化了目标检测任务的定位精度，然后在想，如果想继续优化，又有什么可供优化的方向呢，百思不得其解。后来又一次跟同事交流这个问题，然后无意间了解到凯明大神后面又联合提出了R-FCN。然后笔者查阅了一些资料和原论文，有了自己的一些理解和体会，故这里记录下来...

2018-12-23 14:35:29 1929

原创目标检测算法Q&A

1. 目标检测问题1. Yolo和SSD的区别是什么？回答：YOLO定位精度差，小目标检出率低；SSD是YOLO的多尺度版本，对小目标检出有改善。2. R-CNN、Fast-rcnn、Faster-rcnn的区别是什么？回答：（1）R-CNN使用selective search，然后对每个预选框做分类，缺点为穷举所有框很耗时；（2）Fast-rcnn使用selective search...

2018-12-19 19:38:27 454

原创人工特征之SIFT和HOG

文章目录1 SIFT（局部特征）1.1 特征点检测1.2 特征点描述1.3 特征点匹配2 HOG（全局特征）2.1 特征描述子2.2 HOG特征提取步骤计算机视觉相关的任务都需要先提取特征，然后基于所提取的特征做分类、分割、视觉问答等任务。现在主流的提取特征的方法，都是采用神经网络自动提取对任务起作用的特征，使用人工设计的特征已经成为过去时了。然而，笔者认为，对于每一个算法，找准它的细分领域，...

2018-12-12 10:45:43 6232 1

原创理解yolo系列目标检测算法

在计算机视觉任务中，如果说做的最成熟的是图像识别领域，那么紧随其后的应该就是目标检测了。笔者接触目标检测也有一段时间了，用mobilenet_ssd算法做过手机端的实时目标检测，也用faster-rcnn做过服务器端的二维码检测，尽管一直都知道yolo的效果也很不错，但没抽出时间细细研究，最近刚好闲出空来，就把yolo系列算法论文细读了一遍，在思考的过程中，也使我对之前的知识点有了新的体会，这里一...

2018-11-18 18:17:40 9296 1

原创深度学习算法效果提升-数据

&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;在初学机器学习的时候，常常看到一些博友提到，做机器学习80%以上的时间都用在了处理数据上，当初不以为然。现在工作也一年多了，在实际的项目中深深地体会到了这种说法的合理性。对于深度学习算法而言，提升效果最明

2018-11-04 21:00:04 1185

原创深度学习算法效果提升-网络结构

1. 前言优化深度学习算法的效果可以从三个方面入手，数据+网络结构+损失函数。一般来说，外行改网络结构，内行改损失函数，公司层面收集数据。在一般情况下，特别是手机端应用，直接拿个成熟的小网络进行迁移学习，如shufflenet、mobilenet等，是较为常见的做法。而且，由于一些开源框架提供了官方预训练的模型，只要自己的数据集和imagenet的数据类别出入不大，在其基础上做fine...

2018-11-03 21:52:01 4996

原创对Image caption的一些理解(看图说话)

1. 背景在计算机视觉中，图像分类和目标检测任务是比较成熟的领域，已经应用到实际的产品领域。而“看图说话”要实现的功能是，给定一张图像，计算机能告诉我们图片的内容，显然，这会使一个比较复杂的任务，因为它涉及到了如下的子任务：1）检测图像中的目标；2）目标的属性，比如颜色、尺寸等；3）目标之间的关联；4）语言模型，用于把上面的信息表述成句子；2. 相关的论文2.1 “...

2018-10-29 19:08:45 6740

原创强化学习浅谈

　　一直对强化学习很感兴趣，毕业前那会也尝试着去学习，但因为当时感觉强化学习的公式晦涩难懂，没能坚持下去。最近因工作需要，又重新开始啃强化学习的知识，发现有了新的体会，故在此记录一下，以便以后随时翻看查阅。　　机器学习包含了三大分支，有监督学习（或半监督）、无监督学习和强化学习。同前两者相比，强化学习具有如下特点，　　(1) 没有“supervisor”，只有“reward”信号；　　...

2018-08-26 12:43:48 17497 4

原创目标检测算法理解：从R-CNN到Mask R-CNN

目标检测算法理解：从R-CNN到Mask R-CNN　　因为工作了以后时间比较琐碎，所以更多的时候使用onenote记录知识点，但是对于一些算法层面的东西，个人的理解毕竟是有局限的。我一直做的都是图像分类方向，最近开始接触了目标检测，也看了一些大牛的论文，虽然网上已经有很多相关的算法讲解，但是每个人对同一个问题的理解都不太一样，本文主要结合自己的理解做一下记录，也欢迎大家批评指正～　　在讲解obje

2017-10-30 21:37:52 2049

原创 matlab显示文件夹下的多副图像

最近在写深度学习算法方案的时候，需要在方案书附录中对imagenet数据集可视化，但imagenet数据集中的图像大小并不完全相同，经过一番努力，显示效果才达到导师的要求，故这里把我实现过程中的小问题记录下来，方便以后参考。　　在写机器学习方面的paper时，通常需要可视化数据集。比如人脸数据集，通常每一个子文件夹下包含了一类人脸图像（这些人脸图像的大小可以各不相同、文件的命名可以没有任何规律）

2017-03-09 10:25:58 1093

原创生成对抗网络（GAN）应用于图像分类

近年来，深度学习技术被广泛应用于各类数据处理任务中，比如图像、语音和文本。而生成对抗网络（GAN）和强化学习（RL）已经成为了深度学习框架中的两颗“明珠”。强化学习主要用于决策问题，主要的应用就是游戏，比如deepmind团队的AlphaGo。因为我的研究方向是高光谱图像的有监督分类问题，故本文主要讲解生成对抗网络及其在分类问题方面的应用。生成对抗网络框架　　生成对抗网络（Generative ad

2017-02-15 22:28:39 58303 41

原创 TensorFlow中Sequence-to-Sequence样例代码详解

在NLP领域，sequence to sequence模型有很多应用，比如机器翻译、自动应答机器人等。在看懂了相关的论文后，我开始研读TensorFlow提供的源代码，刚开始看时感觉非常晦涩，现在基本都弄懂了，我在这里主要介绍Sequence-to-Sequence Models用到的理论，然后对源代码进行详解，也算是对自己这两周的学习进行一下总结，如果也能够对您有所帮助的话，那就再好不过了～seq

2016-12-12 22:43:29 25686 5

原创 SVM的原问题和对偶问题模型

这两天，我翻开沉压已久的学习笔记，看到了当初总结的SVM学习心得，为了避免不小心弄丢了，就在这里重新记录一下吧，希望对初学机器学习理论并热爱公式推导的朋友有所帮助。SVM作为一种经典的机器学习算法，在处理“小样本”问题时效果非常显著。本文主要分成三大部分，第一部分介绍一些基本知识，这些知识在SVM的公式推导过程中会用到，所以最先介绍。第二部分针对数据集线性可分的情况，推导SVM的原问题和对偶问题表达

2016-11-29 18:12:59 12499

原创 TensorFlow中RNN样例代码详解

关于RNN的理论部分已经在上一篇文章中讲过了，本文主要讲解RNN在TensorFlow中的实现。与theano不同，TensorFlow在一个更加抽象的层次上实现了RNN单元，所以调用tensorflow的API来实现RNN是比较容易的。这里先介绍TensorFlow中与RNN相关的几个比较常用的函数，　　(1)cell = tf.nn.rnn_cell.BasicLSTMCell(num_unit

2016-11-28 22:11:22 29340 3

原创从循环神经网络（RNN）到LSTM网络

从循环神经网络（RNN）到LSTM网络　　通常，数据的存在形式有语音、文本、图像、视频等。因为我的研究方向主要是图像识别，所以很少用有“记忆性”的深度网络。怀着对循环神经网络的兴趣，在看懂了有关它的理论后，我又看了Github上提供的tensorflow实现，觉得收获很大，故在这里把我的理解记录下来，也希望对大家能有所帮助。本文将主要介绍RNN相关的理论，并引出LSTM网络结构（关于对tensorf

2016-11-27 17:35:29 20497 2

原创 theano编程错误及解决方法

最近在做科研过程中，用到了theano符号计算框架，我在原有程序的基础上做了改动，但程序一直报错，而theano程序又比较难调试，甚是纠结，在反复测试了好久后才弄明白，故在这里把它们记录下来，以免自己以后可能陷入同一个“坑”。（１）错误提示“UnboundLocalError: local variable ‘e0’ referenced before 　　　assignment”；　　　错误样

2016-11-23 09:48:42 2034

原创从GoogLeNet架构到deep dream模型

虽然深度神经网络在计算机视觉方面的效果非常显著，但至今还没有非常严格的理论支撑。最开始学习CNN的时候，采用的都是手写体识别的例子，对其最直观的解释即随着层数增加，所学到的特征越来越抽象（大致按照“点－> 线－>角－>整体轮廓”的顺序）。同样地，谷歌技术团队在训练他们的GoogLeNet网络时，为了对网络所学到的特征有更好的理解，他们在特征可视化方面做了很多努力，同时也发现了一些美轮美奂的图画（如下

2016-11-22 22:02:15 4161

空空如也

空空如也