linolzhang-CSDN博客

原创 YoloV4模型解析及TensorRT加速

一. Yolo演化史Faster RCNN诞生以后，目标检测准确度得到保证，但是two-stage的方式存在天然的效率缺陷，SSD和Yolo填补了这一空白，Yolo一共经历了4个版本。模型数据增强/训练 Backbone 网络特征层性能对比备注 Yolo v1 Lenet -maxPooling 每个点支持2个box ...

2020-05-02 14:23:09 9141 6

原创 Mask Scoring RCNN训练自己的数据

一. 代码准备基于pytorch。 mask scoring rcnn 代码参考：【github】 mask rcnn benchmark 【github】二. 环境安装1. 基于conda创建pytorch环境：conda create -npytorch python=3.7.4conda install ipythonconda inst...

2019-07-30 23:39:14 6075 16

原创 Anchor Free检测算法之FCOS

一.提出背景2019 是 Anchor Free 大行其道的一年，从CornerNet 到 ExtremeNet，从FSAF到FCOS，层出不穷。论文：FCOS: Fully Convolutional One-Stage Object Detection【paper】【github】二.算法框架FCOS框架比较简单，架构图参考：基础backbone是一个3层的卷积网络（对...

2019-06-16 22:05:11 2739 1

原创 CVPR2019-实例分割Mask Scoring R-CNN

今年的Oral，在coco数据集表现超过了Mask RCNN，来自地平线的华科实习生。论文：Mask Scoring R-CNN【paper】【github】1. 提出背景 Mask RCNN 提出以来，一直是作为经典霸屏，但这里面一直存在一个严重的问题，那就是其score机制：由于沿用了Faster RCNN 的 class和box，对应class是类别sco...

2019-05-24 23:01:19 3387

原创 CVPR2019-目标检测分割技术进展

CVPR 2019 没有出现像Faster RCNN，YOLO这种开创性的工作，基于现有方案和框架的改进为主，技术进步着实有些缓慢，或许也代表方案逐步趋于成熟。本文重点介绍如下几个改进方法：GA-RPN GIOU FSAF Mask Score RCNN1. GA-RPN GA-RPN由港中文、商汤和亚马逊联合提出，COCO Challeng...

2019-05-11 22:46:29 3296 1

原创 Tensorflow object detection API训练自己的数据

一. 安装 Tensorflow object detection api是tensorflow官方出品的检测工具包，集成了像ssd、faster rcnn等检测算法，mobilenet、inception、resnet等backbone和fpn、ppn等方法，各模块之间能够通过组合的方式来work。 Github下载地址：https://github.com/tensorfl...

2019-02-12 23:33:43 15909 6

原创 OCR文字识别（2）

一. 文字识别文字识别是指在确定检测框之后，识别出对应的文字，文字识别的方法有很多，包括：1）基于分割后单个字符的分类；2）基于序列的CNN方法，包括基于STN矫正，CTC loss，Attention机制等策略；3）基于one step的检测-识别方法，比如fots、Radical Analysis Network；二. Attention Model ...

2019-02-07 10:25:33 1057

原创 OCR文字识别（1）

一. 研究背景文字识别是CV领域应用最广，最接地气的方向之一，从证件识别到智慧医疗，从拍照识别到无人驾驶，从车牌识别到物流分拣，几乎涵盖了AI的所有场景。通常文字识别分成两步，文本位置检测 + 识别。 > 论文参考：【场景文本位置感知与识别】 > 常用数据集：数据集名称内容说明下载中...

2018-09-20 00:37:12 7499

CNN研究者总是面临一个共同的话题：如何提升神经网络的表达能力？分两个方向去探讨：1）拉长增加网络层数是最直观的一种方法，但这种方法所面临的是梯度消失问题，网络越深，梯度的回传越困难。基于此，MSRA提出了ResNet，通过skipconnection的方式，通过残差思想很好的解决了这个问题。可以参考论文：Deep Residual Learning forImage Recognition这一...

2018-03-28 02:11:08 4249

原创 Facebook开源检测工具包 Detectron （by Caffe2）

一. Detectron 特征大名鼎鼎的 FAIR 开发的软件包，可以从【github】了解一下。个人感觉比较有用的是基于 ResNet 基础框架的 Faster RCNN和Mask RCNN。 Detectron 基于 Caffe2（貌似被诟病的不轻），就目前阶段来看，caffe2 还有待于完善（pytorch也是一个意思），其工程化程度远不如 T...

2018-02-02 23:31:55 5466 1

原创 TensorRT深度学习推理框架介绍

一. 产生背景深度学习的发展带动了一批深度学习框架，caffe、tensorflow、pytorch等，对于计算量庞大的CNN，效率一直是大家所关注的，接触过深度网络压缩的同学应该知道网络压缩最关键的两个思路，剪枝和量化。 TensorRT就是量化，将FP32位权值数据优化为 FP16 或者 INT8，而推理精度不发生明显的降低。关于TensorRT首先要...

2018-01-16 23:52:37 20291 1

原创人群密度估计-Crowd Density

一. 应用背景在安防大背景下，对敏感区域人流量的管控是一个重要的课题，防止人群骚乱、踩踏现象的发生，对非预期的人员汇聚进行预警等等，最常用的方法是检测到每个目标，然后借助 Perspective 矩阵完成到实际位置的映射，当然，在目标很难检测的情况下（密度极大、遮挡严重），基于回归的方法就派上了用场。本节主要讲基于深度学习的回归方法来实现人群密度检测。二. 人群密度之 Cr

2017-12-18 23:47:49 18608 7

原创语义分割网络之PSPnet

一.提出背景基于FCN全卷积网络的分割面临诸多问题，这篇文章从多尺度入手，提出了金字塔模型来提取多尺度的信息，达到了 State-of-the-art 的结果论文：PSPnet：Pyramid Scene Parsing Network 【点击下载】 Caffe代码：【Github】二.算法框架算法细节比较多，这里我主要强调以下几个关键点：

2017-11-14 22:53:55 11494

原创深度网络模型压缩 - CNN Compression

一. 技术背景一般情况下，CNN网络的深度和效果成正比，网络参数越多，准确度越高，基于这个假设，ResNet50（152）极大提升了CNN的效果，但inference的计算量也变得很大。这种网络很难跑在前端移动设备上，除非网络变得简洁高效。基于这个假设，有很多处理方法，设计层数更少的网络、更少的卷积和、每个参数占更少的字节，等等。前面讲过的 PVANet、

2017-10-13 23:22:39 10811

原创视频人员行为识别（Action Recognition）

一. 提出背景目标：给定一段视频，通过分析，得到里面人员的动作行为。问题：可以定义为一个分类问题，通过对预定的样本进行分类训练，解决一个输入视频的多分类问题。这里提出的问题是简单的图片（视频）分类问题，该问题的前提条件是：场景目标为单人，并且占据图片比较大的比例，如下图所示：还有一类问题是基于行人检测，去估计行人的姿态和动作，

2017-09-19 21:28:28 18513 5

原创 Mark 一些有意思的深度学习方向

1. VQA Visual Question Answering，给出一张图片，就该图片提出任何问题？自动get到你所期望的答案。这属于Visual Reasoning 的范畴，学者们不满足于传统的图像识别、分割、Caption等工作，尝试去挖掘更高级的机器推理能力。来看解决思路，CNN、LSTM(RNN)、Attention Model、BOW，都是图像、文本、NLP领域的通用手法，

2017-09-08 22:35:56 5292

原创 NoScope：极速视频目标检测

一.提出背景在基于CNN的方法提升到一个很高的准确度之后，效率又成为人们所关注的话题，目前兼备准确度和效率的方法包括 SSD、YOLO v2，其检测效率通常能到达 30-100FPS，而这里面的代价就是上万块的显卡，这个代价是相当高的。当下视频获取设备（CCTV摄像头）成本通常是几百块，而采用上述分类算法，其成本可能是几千，这就是视频获取和视频分析之间的巨大鸿沟。基于此

2017-08-29 23:22:04 10128 1

原创 DenseNet：更接近于真实神经网络的跨层连接

一. 提出背景论文：Densely Connected Convolutional Networks 【点击下载】 Caffe代码：【Github】受 Highway、ResNet 等算法思路的启发，提出一种跨层的连接网络，思路非常简单，直接上图：二. 算法思路作者这个提法比较大胆，每个层的 input 包括之前所有层的信息，通

2017-08-16 22:11:08 10355

原创对抗网络之目标检测应用：A-Fast-RCNN

对抗网络之目标检测应用：A-Fast-RCNN 论文：A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection 【点击下载】 Caffe代码：【Github】一. 深度学习正确的打开方式深度学习的根基在于样本，大量的样本决定了深度网络的精确度和收敛性，针对样本的挖掘是深度学

2017-08-05 00:21:16 9753 1

原创轻量级网络 - PVANet & SuffleNet

一. PVANet 论文：PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection 【点击下载】 Caffe代码：【Github】设计了一种轻量级的网络，取名叫 PVANet，特点是 Channel少、Layer多，在 VOC2007 和 VOC2012 精确

2017-07-28 23:56:22 8655 1

原创特征金字塔网络 FPN

一. 提出背景论文：Feature Pyramid Networks for Object Detection 【点击下载】在传统的图像处理方法中，金字塔是比较常用的一种手段，像 SIFT 基于金字塔做了多层的特征采集，对于深度网络来讲，其原生的卷积网络特征决定了天然的金字塔结构。深度网络在目标检测领域的应用比如早期的 Fast RCNN，Faster RCNN 都

2017-07-21 22:18:10 10421 1

原创 Faster R-CNN改进篇（二）： RFCN ● RON

@改进1：RFCN 论文：R-FCN: Object Detection via Region-based Fully Convolutional Networks 【点击下载】 MXNet代码：【Github】一. 背景介绍 RCNN 在目标检测上取得了很大的成功，比如 SPPnet、Fast R-CNN、Faster R-CNN 等，这些方法的典型特征

2017-07-15 01:15:40 19001 1

原创基于视频的目标检测

一. 提出背景目标检测在图像处理领域有着非常大的占比，过去两年，深度学习在Detection的持续发力，为这个领域带来了变革式的发展：一方面，从 RCNN 到 Fast RCNN，再到 Faster RCNN，不断刷新 mAP；另一方面，SSD、YOLO 则是将性能提高到一个非常高的帧率。对于视频来讲，相邻帧目标之间存在明显的上下文关系，这种关系在技术上的表现就是 T

2017-07-11 23:05:04 35272 7

原创深度学习的研究方向和发展趋势

一. 人工智能应用领域1. 计算机视觉生物特征识别：人脸识别、步态识别、行人ReID、瞳孔识别；图像处理：分类标注、以图搜图、场景分割、车辆车牌、OCR、AR；视频分析：安防监控、智慧城市；2. 自然语言处理语音识别（Siri、Cortana、讯飞）、文本数据挖掘、文本翻译；3. 数据挖掘消费习惯、天气数据、推荐系统、知识库（专家系统）；4. 游戏角

2017-07-07 23:07:22 35568 19

原创 Faster R-CNN改进篇（一）： ION ● HyperNet ● MS CNN

一. 源起于Faster 深度学习于目标检测的里程碑成果，来自于这篇论文： Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Syst

2017-07-02 23:31:36 17540 3

原创目标检测 - Tensorflow Object Detection API

一. 找到最好的工具 “工欲善其事，必先利其器”，如果你想找一个深度学习框架来解决深度学习问题，TensorFlow 就是你的不二之选，究其原因，也不必过多解释，看过其优雅的代码架构和工程化实现之后，相信这个问题不会有人再提，这绝非 Caffe an so on 所能比拟的。回到题头－目标检测，相信你一定看过这篇 Paper： Speed/accuracy trade

2017-06-25 23:04:05 31854 8

原创迁移学习：经典算法解析

一. 了解迁移学习迁移学习（Transfer Learning）目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。 > The ability of a system to recognize and apply knowledge and skills learned in previous tasks to novel tasks。

2017-06-16 23:08:41 68402 8

原创深度学习进阶之路 - 从迁移学习到强化学习

一. 深度学习及其适用范围大数据造就了深度学习，通过大量的数据训练，我们能够轻易的发现数据的规律，从而实现基于监督学习的数据预测。没错，这里要强调的是基于监督学习的，也是迄今为止我在讲完深度学习基础所给出的知识范围。基于卷积神经网络的深度学习（包括CNN、RNN），主要解决的领域是图像、文本、语音，问题聚焦在分类

2017-06-06 23:17:44 19710

原创目标跟踪之ECO：Efficient Convolution Operators for Tracking

一. 相关滤波算法总结作者首先分析了影响相关滤波算法效率的几个原因：1）Model Size (模型大小）包括两个方面：－模型层数，对应多分辨率 Sample，比如多层 CNN －特征维度，对应庞大的 HOG or CNN特征图这里的效率影响是显而易见的，层数或特征越多，表现力越丰富，计算量也

2017-05-31 23:13:23 15325 3

原创目标跟踪之相关滤波：CF及后续改进篇

一. 何为相关滤波？ Correlation Filter 最早应用于信号处理，用来描述两个信号之间的相关性，或者说相似性（有点像早期的概率密度），先来看定义：对于两个数据 f 和 g，则两个信号的相关性（correlation）为：其中 f∗ 表示 f 的复共轭，这是和卷积的区别。

2017-05-25 23:40:58 22512 1

原创目标跟踪之GOTURN：Learning to Track at 100 FPS with Deep Regression Networks

一. 简介选择这篇文章的原因在于能实现 100帧的效果，对于跟踪来讲，大多数应用场景需要实时跟踪，应该说仅仅实时跟踪还不够，还需要计算资源来做视频解码、检测、比对等多个工作。这篇文章 2016年来自 Stanford 大学的 David Held，通过 CNN直接回归的方式得到目标位置。论文下载：Learning to Track

2017-05-16 23:29:30 8801 1

原创深度学习之目标跟踪

一. 跟踪进展（Advances in Visual Tracking）作者在前面的机器学习文章中也讲到了 Tracking，感兴趣的童鞋可以 Review一下：机器学习实践系列之5 - 目标跟踪前面只是基于传统方法的跟踪，这一篇我们 Focus 在深度学习上。关注跟踪算法的进展，只需要 Follow VOT Challenge 就可以了，Vi

2017-05-15 23:13:13 13262

原创 Mask-RCNN技术解析

一. Mask-RCNN 介绍上篇文章介绍了 FCN，这篇文章引入个新的概念 Mask-RCNN，看着比较好理解哈，就是在 RCNN 的基础上添加 Mask。 Mask-RCNN 来自于年轻有为的 Kaiming 大神，通过在 Faster-RCNN 的基础上添加一个分支网络，在实现目标检测的同时，把目标像素分割出来。论文下载：Mask R-CN

2017-05-12 23:01:29 123747 12

原创图像分割与FCN

一. 图像语义分割传统的图像分割方法主要包括以下几种：1）基于边缘检测2）基于阈值分割比如直方图，颜色，灰度等3）水平集方法这里我们要说的是语义分割，什么是语义分割呢？先来看张图：将目标按照其分类进行像素级的区分，比如区分上图的摩托车和骑手，这就是语义分割，语义分割赋予了场景理

2017-05-11 21:55:24 27284

原创 ResNeXt网络进化

一. ResNeXt 的 Block 改进 MSRA 的 KaiMing 转战Facebook的又一力作，大牛的神来之笔：论文下载：Aggregated Residual Transformations for Deep Neural Networks代码地址：【Github】 ResNet、Inception 已经成为目前网络的前进方向，堆叠的Bl

2017-05-11 00:01:51 8436 2

原创 ResNet残差网络

前面我们对常用的经典网络进行了介绍，可以查看前面文章：浅入浅出TensorFlow 6 - 实现经典网络随着网络越来越深，大家发现，仅仅靠 BN、ReLU、DropOut 等 Trick无法解决收敛问题，相反，网络的加深带来参数的增加。基于之前的实践经验，我们知道：网络并不是越深越好，一方面过多的参数容易导致过拟合（当然样本足够多可以一定程度上解决这个问题）；另

2017-05-08 00:25:27 13098

原创基于深度学习的Person Re-ID（度量学习）

度量学习是指距离度量学习，Distance Metric Learning，简称为 DML，做过人脸识别的童鞋想必对这个概念不陌生，度量学习是Eric Xing在NIPS 2002提出。这并不是个新词，说的直白一点，metric learning 是通过特征变换得到特征子空间，通过使用度量学习，让类似的目标距离更近（PULL），不同的目标距离更远（push），也就是说，度量学

2017-05-06 00:38:55 8274

原创基于深度学习的Person Re-ID（特征提取）

一. CNN特征提取通过上一篇文章的学习，我们已经知道，我们训练的目的在于寻找一种特征映射方法，使得映射后的特征 “类内距离最小，类间距离最大”，这种特征映射可以看作是空间投影，选择一组基，得到基于这组基的特征变换，与 PCA 有点像。这一篇我们讲的就是基于 CNN的特征提取，特征提取过程也就是训练过程，训练结果就是 CNN 的参数。以 T

2017-05-01 23:44:03 10463

原创基于深度学习的Person Re-ID（综述）

一. 问题的提出 Person Re-ID 全称是 Person Re-Identification，又称为行人重检测 or 行人再识别，直观上可以通过两种思路进行比对，一种是通过静态图像（still-image）进行特征比对，另一种是通过视频的时序特征（temporal）进行 Video Re-Id。不管是采用图像特征比对的方法还是结合时序特征比

2017-05-01 22:09:17 22906

原创浅入浅出TensorFlow 9 - 代码框架解析

一. TensorFlow 源码截止到目前为止，TensorFlow 在 Github 的 Contributors 已经接近900人，Fork 30000次。学习这么庞大的开源项目，首先必须要搞清楚其代码组织形式，我们先来看目录结构： Project 目录分为4个：1）tensorflow 核心代码目录，图中

2017-04-26 23:21:41 4952