stesha_chen-CSDN博客

原创 Soft Anchor-Point Object Dection

论文地址V1背景介绍anchor based的检测模型，比如SSD，RetinaNet，YOLOv2之类，这类模型可以认为是一种box-to-box的形式。而现在比较热门的anchor free的检测模型，比如FSAF，本文的SAPD，FCOS，FoveaBox，CornnerNet，CenterNet之类，这类模型可以认为是一种points-to-box形式。Anchor free模型的优势：不需要手动调整关于anchor的超参数检测的head常常更简单大多在速度和精度上都比anc

2020-08-11 12:17:23 377

原创 FCOS: Fully Convolutional One-Stage Object Detection

论文地址背景介绍FCOS是比较有代表性的anchor free的检测模型，论文中作者的研发思路都是与RetinaNet进行比较，有针对性的进行改进。作者总结了anchor based模型的四个缺点：模型最终的表现对anchor尺寸大小的设置非常敏感就算是小心设计过的anchor，在处理一些特殊的物体上能力也不够，这样也就限制了模型的泛化性，并且对于不同的数据集需要重新设计anchor的尺寸和大小，才能更好的拟合数据为了提升recall，通常会设计大量的anchor，导致正负样本不均衡

2020-07-31 17:07:28 428 1

原创 AutoAssign: DifferentiableLabelAssignmentforDenseObjectDetection

论文地址研究背景以往的设计中，对于正负样本的分配主要是两种方式：以RetinaNet为代表的，通过IOU进行正负样本的分配，一般是IOU大于0.5为正样本，IOU小于0.3为负样本，IOU大于0.3小于0.5的样本忽略不考虑。以FCOS为代表的anchor free方案，是在目标框的w和h以中心点为原点向内缩小一定的比例，比如w和h都乘以0.2，这个范围内做为正样本...

2020-07-28 15:54:02 1517 2

原创 Anchor Loss论文学习

论文名称：Anchor Loss: Modulating Loss Scale based on Prediction Difficulty发布时间：2019.09.24作者：加州理工论文地址：https://arxiv.org/abs/1909.11155v1摘要：作者提出了一种根据预测难度自动调整cross entropy比例的loss。在预测结果中，我们只会选择最高置...

2020-01-10 21:46:48 1246 1

原创 Bag of Freebies for Training Object Detection Neural Networks-论文阅读

摘要本文提出了对定位网络具有普遍性的技巧，可以让定位算法的performance提升到一个新的高度。简介物体定位的任务吸引了各个领域研究者的注意，最近比较流行的算法有SSD，YOLO还有RCNN之类，这些网络的backbone都是分类网路比如VGG，ResNet，Inception和...

2019-06-30 14:30:08 426

原创 LaneNet代码实现细节以及遗留问题

最近比较忙很久没有维护这里了，可能还是有很多人会有问题，我重新提交了git，地址是https://github.com/stesha2016/lanenet-enet-hnet，如果有问题可以在git上提交，可以一起讨论下。现在这个项目还有一些工作需要继续：1.聚类的点太多会导致聚类耗时太长，不能达到真正实时的效果。2.在CULane的数据集上进行训练和测试。3.可以考虑结合CULan...

2019-04-28 13:59:11 10079 118

原创朴素贝叶斯（详细版）

朴素贝叶斯是传统机器学习算法中的一种，因为使用简单而且效果不差而被广泛使用。基本上用到的数学原理就是贝叶斯公式和极大似然估计，原理上也是比较简单。但是它的简单是源于做了一个硬性的假设，假设在知道y的情况下，x中的所有feature出现的可能性是相互独立的，这个条件其实并不成立，但是这个假设大大简化了模型，不过这个模型也因为这个硬性假设而丧失了一些准确性。这篇博文的内容是基于《统计学习方法》中第...

2019-04-08 14:59:56 1007

原创广义线性模型(Generalized Linear Models)-cs229 lecture4

学习cs229时看到了广义线性模型，所谓广义，应该就是使用这个模型可以将大多数的概率分布模型统一化，可以使用这个模型推导出像sigmoid,softmax之类的函数形式。在这里记录一下学到的相关内容，便于以后回顾。指数族概率统计中的很多分布都可以表示为指数族的形式，指数族的通用表示如下：（1）其中是这个分布的natural parameter或者叫做cononical pa...

2019-04-03 15:01:25 971

原创使用矩阵的迹推导最小二乘法的解(cs229-lecture2)

之前写了一篇最小二乘法进行曲线拟合，当时就觉得这个过程其实和神经网络的线性回归很像。是否可以用同样的方法来求解线性回归的问题，而不用梯度下降呢？后来在cs229的第二课中刚好看到了这个内容，感觉推导方式更加的精妙，这里记录一下推导过程方便以后回顾。假设我们需要预测房价，有n个feature会影响房价，比如房子大小，修建年份，装修情况，房屋个数，所处位置等等。我们搜集了m组这些feature和房...

2019-03-28 12:00:40 2013

原创最小二乘法曲线拟合公式推导与代码实现

假设现在有n对坐标系中的点，现在要做k阶多项式拟合，多项式函数如下： (1)如果将所有已知的点代入公式1就可以得到n组等式：...这些不等式不一定的有解的，就是说在k阶多项式的曲线下不能拟合每个点，所以我们需要求多项式计算出来的y与真实y之间最小来实现尽量拟合每个点。 (2)将公式1代入2可以得到 (3)可以通过公式3对求偏导后令其为0...

2019-03-27 17:32:25 10289

原创车道线检测网络-LaneNet(论文简述)

摘要无论是辅助驾驶还是自动驾驶，车道线识别都是非常重要的。以前的算法需要很多人工的操作或者无法很好的适应不同的车道线场景。本文主要是使用semantic segmentation的方式来对车道线进行划分，可以适应变化的车道环境，并且速度可以达到50FPS。一介绍现在的自动驾驶主要集中在计算机视觉和机器人领域的研究，还处于学术和工业水平，并没有大众化使用。研究的目的就是希望通过各种sen...

2019-03-27 14:08:13 8353 3

原创 mean shift聚类算法分析

最近看一个车道线识别的算法LaneNet，其中用到了mean shift进行聚类，然后研究了一下这个聚类算法，主要是从代码中了解的，简单记录一下自己的理解，防止以后忘记。meanshift code使用mean shift聚类我们不用预先知道数据需要聚集为几类，算法会自动找出几个cluster。随机数据在开始使用mean shift算法之前先随机生成几蔟数据，方便后面验证聚类效果。...

2019-03-26 20:53:27 3430 4

原创 FCN论文简述与代码实现

目录FCN论文简述FCN代码实现 FCN论文简述论文地址FCN是Fully Convolutional Networks的缩写，论文的全称是Fully Convolutional Networks for Semantic Segmentation。我觉得论文的主要贡献在于两点：提出了一种全卷积网络，去掉了以前VGG网络常规的FC连接使用像素级别的比较来进行语义分割...

2019-02-24 12:37:41 5798 13

原创几种优化方法总结---Momentum，AdaGrad，RMSProp，Adam

SGDSGD的全称是stochastic gradient descent，随机梯度下降，是相对batch gradient descent提出来的。batch gradient descent：将所有训练样本全部投入计算dw，db。好处：这种计算方式求出来的dw和db是最真实的。坏处：如果训练样本特别大，比如100,000个样本，这样会导致很长时间才能计算出一次倒数然后进行一次梯度下降，...

2019-02-13 15:43:07 1915

原创使用tensorflow自带model训练SSD并且在手机上运行

整个流程稍微有点长，但是如果走通后再来新的任务就很简单了。大概分为以下几个步骤：训练SSD 转tflite 在android应用中运行训练SSD1.代码下载https://github.com/tensorflow/models.git我们会使用ROOT/research/object_detection下的代码来训练SSD。2.环境配置除了tensorflow外还...

2019-02-11 15:59:04 2845 5

原创使用MACE加速---使用篇

最近开始研究如何对手机应用中的识别算法进行加速，搜索后发现了小米的MACE。Mobile AI Compute Engine (MACE) 是一个专为移动端异构计算设备优化的深度学习前向预测框架。覆盖了常见的移动端计算设备（CPU，GPU和DSP）。支持的硬件加速比较全面，是小米提供的一个比较有诚意的框架。这篇博文主要记录一下环境的配置，以及把小米提供的例子运行一下，以这样一个过程来熟悉...

2019-02-01 10:04:50 2435 3

原创 Batch Normalization导数计算与代码实现

关于batch normalization的论文阅读可以参考以前的一篇博文Batch Normalization，这里主要对BN的导数进行推导，并且看一下tensorflow中的源码实现。BN导数推导正向计算回顾一下Batch Normalization的正向计算公式： (1) (2) ...

2018-12-21 18:55:00 2956 2

原创 cs231n-lecture6 神经网络的训练Part1

Lecture6的内容比较多，稍微复杂一点，但是在实际操作中都是非常有用的知识点。结合视频课件还有课堂笔记可以比较好的理解这章的内容，我写这篇文章是为了梳理一下自己的理解，也方便自己以后回顾。目录Activation FunctionsData PreprocessingWeight InitializationBatch NormalizationBabysittin...

2018-12-11 15:51:59 463

原创 YOLO：You Only Look Once论文阅读

前言YOLO的提出是相对Faster RCNN的改进，Faster RCNN的速度是大概1秒7到8张，一般视频播放1s有20多帧吧，所以Faster RCNN不能达到完全的实时，而YOLO的速度可以达到每秒45张图。速度的提升主要得益于一个网络进行box和cls的预测，而Faster RCNN是两个网络分别预测box和cls。不过从准确率上来说，YOLO是不如Faster RCNN的，但是他提...

2018-11-26 09:59:05 434

原创 cs231n学习笔记-lecture4（Backpropagation and Neural Networks）以及作业解答

Backpropagation学习笔记这部分主要是比较详细的介绍使用计算树进行反向传播的计算方法。首先举了一个很简单的例子，例子中详细的介绍了前向传播和反向传播的计算方式，其实就是链式法则。每个节点的导数都是用后一个部位的导数乘以当前节点的导数。然后总结了一个节点导数的求法，就是上一个节点的导数乘以当前节点的local gradient。然后举了一个相对复杂的例子，也是...

2018-11-17 21:56:52 579

原创 cs231n学习笔记-lecture3（Loss Functions and Optimization）

前言最近开始学习cs231n的课程，想从基础上再梳理一下视觉相关的知识点，课程中有些概念的解释还是非常巧妙的，将自己有些领悟的地方记录下来，方面以后回顾。Loss FunctionsSVM Loss对于一个线性模型，计算出来的值就是某张图片对于每个类别的分数。如上图的计算一样，假设我们现在有了一组W，如何判断这个W的表现如何呢？因此引入了loss函数，用这个loss函数...

2018-11-10 23:43:51 262

原创 SSD（2）代码分析

目录代码运行代码分析代码运行同样分析tensorflow版的实现，代码地址：SSD-Tensorflow1.预测unzip ssd_300_vgg.ckpt.zipjupyter notebook notebooks/ssd_notebook.ipynb启动jupyter notebook后，我们运行里面的代码就可以进行预测了。2.训练准备数据...

2018-11-10 23:42:58 1915 4

原创 SSD（1）论文阅读

论文地址：SSD: Single Shot MultiBox Detector简介本文要介绍一种仅用一个神经网络进行物体检测的方法，我们叫做SSD。对feature map上的每一个位置通过不同的纵横比和尺度得到bounding box，然后转化成默认框。在预测的时候，会对每一个默认框生成每个类别的分数，并且会对默认框做调整让他更符合物体的形状。网络会从多个feature map做预测...

2018-10-21 14:48:11 462

原创 Faster RCNN（2）代码分析

目录运行代码代码分析运行代码原作者的代码实现py-faster-rcnn，用的框架是caffe，由于对caffe不熟悉，所以在github上找了一个tensorflow版本的代码实现，地址是tf-faster-rcnn在github上阅读代码之前，肯定是要先读一遍readme，根据作者写的说明将代码运行起来，这样也便于后面在代码中添加log来分析代码。1.安装环境...

2018-10-21 14:45:36 1780

原创 Faster RCNN（1）论文阅读

目录发展历程论文阅读小结发展历程在阅读Faster RCNN论文之前有必要先了解一下RCNN，SPPNet和Fast RCNN，这样才能了解到faster RCNN的改进点。RCNNRCNN是Regions with CNN features，是将CNN应用到目标检测问题上的一个里程碑。借助CNN网络良好的特征提取和分类性能，通过RegionProposal方法实...

2018-10-07 17:36:31 595

原创 MobileNet V2论文阅读和代码解析

目录论文阅读代码解析小结论文阅读1.前言神经网络在机器智能的很多领域都有革命性的改进，在图像识别的领域精确度已经能够超过人类。然而，为了提高精确度常常会带来消耗，需要更高的计算资源，是很多手机和嵌入式设备所不具有的。这篇文章介绍了一个新神经网络结构，是专门为手机和资源有限的环境量身定制的。我们的网络通过减少计算次数和内存占用，推进了为移动设备量身定制的计算机视觉模型达...

2018-10-01 10:56:20 7100 2

原创使用Flask搭建图像识别服务器

FlaskFlask是一个Python实现web开发的微框架，对于像我对web框架不熟悉的人来说还是比较容易上手的。Flask安装sudo pip install Flask一个简单服务器应用为了稍微了解一下flask是如何使用的，先做一个简单的服务器例子。第一个文件hello.py。from flask import Flaskapp = Flask(__nam...

2018-09-23 17:09:13 8795 9

原创 MobileNet V1论文阅读和代码解析

目录论文阅读代码解析论文阅读1.前言自从AlexNet在2012年获得ImageNet冠军以来，卷积神经网络在计算机视觉中随处可见。为了获得更高的准确率，现在的趋势是让网络越来越深，越来越复杂。然而这些改进会影响到网络的大小和速度。在很多现实世界的应用中，比如机器人，自动驾驶，增强现实等，需要图像识别任务在有限的计算资源平台上做出及时的反应。这篇论文描述了一个很高效的...

2018-09-23 17:08:20 7052 4

原创 Resnet V2论文阅读和代码解析

目录论文阅读代码解析小结论文阅读1.介绍在Resnet V1的论文中介绍的‘Residual Units'可以用公式表示如下:表示这个unit的输入，表示这个unit的输出，是残差函数，resnet V1的论文中建议，是RELU。是一个很关键的选择，能让网络表现不错的效果。在这篇文章中，作者会研究信息传播的路径对结果的影响。如果和都是等式映射，那么信号...

2018-09-16 21:27:33 5105 2

原创将分类网络应用在android中 part2，用自己的训练结果应用android

目录准备工作编译应用代码解读准备工作1.保存checkpoint可以参考之前的一篇利用tf slim进行分类网络训练的博客，博客地址，如果按照里面的操作步骤进行训练网络，我们会得到保存下来的checkpoint文件。model.ckpt-5000.data-00000-of-00001 --> 保存了当前参数值model.ckpt-5000.index ...

2018-09-09 15:22:09 367 1

原创 Inception-V4和Inception-Resnet论文阅读和代码解析

目录：论文阅读代码解析小结论文阅读论文地址：Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning此论文主要是作者尝试将inception与residual结合，而提出了inception-resnet-v1和inception-resnet-v2网络，并且为了...

2018-09-08 22:28:08 9323 3

原创将分类网络应用在android中 part1，编译tensorflow android例子

目录准备使用android-studio编译使用bazel编译准备如果需要了解如何将tensorflow的分类网络编译进android应用，我想先从google提供的例子着手应该是最好的方式。首先我们需要下载tensorflow的代码，官方推荐是用--recurse-submodules来下载，否则可能有些protobuf会出现编译问题git clone --r...

2018-09-02 19:49:29 313 2

原创用tensorflow中slim下的分类网络训练自己的数据集以及fine-tuning(可以直接实战使用)

目录前期准备训练flower数据集(包括fine-tuning)训练自己的数据集(包括fine-tuning) 前期准备前期了解tensorflow models在tensorflow models中有官方维护和非官方维护的models，official models就是官方维护的models，里面使用的接口都是一些官方的接口，比如tf.layers.conv2d之...

2018-09-01 23:48:36 8531 20

原创 Resnet V1论文阅读和代码解析

目录：论文阅读代码解析小结论文阅读论文地址：Deep Residual Learning for Image Recognition1.介绍最近研究表明，增加网络的深度是至关重要的。于是增加网络的深度成了大家努力的方向，但是是否堆叠更多的层就一定能够训练出更好的结果呢？事实上并不一定，我们遇到的阻碍之一就是梯度消失和梯度爆炸。如果遇到了梯度消失和梯度爆炸，网络会很...

2018-08-26 17:18:47 3763

原创 Inception V3论文解读和代码解析

目录论文解读代码解析小结论文解读在介绍inception V2时提到过，inception V3的论文依据是Rethinking the Inception Architecture for Computer Vision 虽然此文中介绍的网络结构叫做inception V2，但是在代码的实现中却是叫做inception V3。可能google在实现代码的...

2018-08-19 10:40:42 4379 3

原创 Batch Normalization论文解读与Inception V2代码简析

目录论文阅读代码简析小结论文阅读Inception V2是Inception家族的一个中间件产物，在论文Rethinking the Inception Architecture for Computer Vision中提到了Inception V2的概念，但是google的代码实现却是命名为Inception V3。从google实现的Inception...

2018-08-14 16:45:40 5417

原创 GoogleLeNet(Inception-V1)论文及代码解析

目录 GoogleLeNet论文 tensorflow代码分析小结 GoogleLeNet论文 GoogleLeNet是2014年ImageNet中ILSVRC14竞赛的冠军，和VGG网络是同一届，VGG网络是当年竞赛的亚军。但是实际上两个网络的TOP-5错误率相差并不多，GoogleLeNet的网络结构相对VGG复杂一些，是一个22层的网络，并且提...

2018-08-13 17:51:59 6332 2

原创 VGG结构解析及tensorflow代码实现(初学者，配套自己代码实现，可以快速部署到应用中)

目录 VGG论文 tensorflow网络实现 VGG fine-tune(vgg fine-tuning) 总结 VGG 论文1. 前言VGG 论文地址论文标题为Very Deep Convolutional Networks For Large-scale Image Recognition。从标题可以看出作者主要是从网络的深度...

2018-07-28 10:12:38 9867 9

空空如也

空空如也