卷积神经网络
文章平均质量分 69
隋边边
这个作者很懒,什么都没留下…
展开
-
基于深度图像的多人姿态检测
本文主要是对"Efficient Convolutional Neural Networks for Depth-Based Multi-Person Pose Estimation"论文的一个介绍,2019年发表,作者是ANMG等,很优秀的一篇论文。链接:https://arxiv.org/pdf/1912.00711.pdf概述首先,本文的目标是在一副深度图像中获取出人体的关键点坐标,本文中认为有17个,结果实例如下图所示。本文采用的架构如下:包含两个大的阶段,前一阶段使用CNN进行特征提原创 2021-11-16 17:02:57 · 4691 阅读 · 1 评论 -
YOLOv1——YOLOv3的一些理解和总结
每一代YOLO中最亮的亮点。1.1 YOLOv1YOLOv1最值得说的当然是YOLO网络提出本身,使用回归的方法端到端解决了目标检测问题。一个值得一提的细节就是,YOLOv1采用了将一副图片划分为多个grid cell的方法,每个grid cell仅预测出两个框,最终的输出张亮大小为:S x S x (B x 5 + C),其中S是grid cell在某一维的数目,B是每个grid cell预测出的框的数目,5代表了框的中心x,y坐标和框的宽w、高h,以及框的IOU值,C代表了每个物体类别的概率.原创 2021-11-11 19:58:16 · 2671 阅读 · 0 评论 -
教你如何记住卷积后图像大小的公式
假设输入图像的尺寸为i x i,输出图像尺寸为 o x o, 步长stride为s, 某一边的padding为p,kernal的大小为k x k,则公式为:如何快速记住这个公式呢?如上图画了一个实例,输入图像大小为3 x 3, i = 3; p = 1; s = 1; k = 3.3 x 3的图像经过padding以后变为5 x 5,即i + 2p。而 i + 2p - k 的含义则是图中的蓝色kernal有几个像素可以走,每一步的步长是s,(i + 2p - k) / s 的意思显然就是蓝色ke原创 2020-11-05 09:52:13 · 1667 阅读 · 1 评论 -
饱和非线性(saturating nonlinearities)和非饱和非线性(non-saturating nonlinearities)的区别
在论文《 ImageNet Classification with Deep Convolutional Neural Networks》中描述激活函数时,用了饱和非线性函数和非饱和非线性函数的区别。这里在这里描述其差别。直观理解饱和激活函数会压缩输入值。定义举例对于Rectified Linear Unit (ReLU)激活函数f(x) = max(0, x),当x趋于正无穷则f(...翻译 2019-03-25 19:15:07 · 5075 阅读 · 2 评论 -
关于Faster RCNN的几点理解
1. RPN(Region proposal network)是一个全连接神经网络上图是faster RCNN的完整的结构,在通过前面的特征提取网络之后,RPN将使用其最后一层特征图,从中提取proposal region,RPN本质上就是一个全连接层。RPN首先是个滑窗结构的,如下图是其中的一个窗口的实例,窗口大小是3 X 3。假设RPN的输入特征图有32个channel。则采用的filte...原创 2019-04-01 15:35:49 · 474 阅读 · 0 评论 -
P-R曲线和mAP的简易理解
目标检测任务,常使用mAP这一评价标准来判断分类是否准确。1. 精度(precision)和召回率(recall)关注一个二分类问题,如判断一个照片是不是一辆车。对于一个样本,如果其本身确实是一辆车。经过预测之后,这个样本是车的概率是0.6,这时候我们需要有一个阈值,设定阈值为0.7,那么由于0.6<0.7,这个样本是个负样本(即不是车),是Negative,这个判断是错误的,即Fal...原创 2019-04-03 15:36:44 · 4642 阅读 · 1 评论