计算机视觉
jmucvm
这个作者很懒,什么都没留下…
展开
-
轻量级网络 | SQUEEZENET
论文:https://arxiv.org/abs/1602.07360github: https://github.com/forresti/SqueezeNet简介:SqueezeNet是一个经典分类模型, 主要特点是模型参数量少, 在Imagenet上精度和AlexNet差不多,模型大小是AlexNet的150\frac{1}{50}501 之一左右,压缩后可以小于0.5M。S...原创 2020-03-21 23:24:50 · 481 阅读 · 0 评论 -
深度学习——激活函数ReLu、LReLu、PReLu原理解析
深度学习——激活函数ReLu、LReLu、PReLu原理解析简介论文链接: https://arxiv.org/abs/1502.01852由于项目需要,需要了解msra 权重初始化方法原理, 正好Kaiming 大神这篇论文提出了PReLu。本博客主要介绍PReLu。文中两个创新点是使用PReLu和msra初始化后,在I ImageNet 2012 classification dat...原创 2019-01-29 23:08:01 · 13733 阅读 · 2 评论 -
深度学习——卷积神经网络原理解析(Convolution layer)
深度学习——卷积神经网络原理解析(Convolution layer)简介卷积主要应用于计算机视觉领域,经常用于特征的提取、目标检测、人脸检测与识别等任务。卷积是同于一系列加乘法运算完成,核心是卷积核(filter),还有一些参数:strid(s)、pad、weights。下面介绍卷积层的前向传播和反先传播过程。前向传播(fowardpropagation)前向传播比较容易理解,就是...原创 2019-02-08 18:02:45 · 2393 阅读 · 0 评论 -
RCNN系类——RoI pooling layer
RoI pooling layer一、简介RoI pooling layer是Fast RCNN中一个层,也应用于Fater RCNN,可以让region of interest(ROI)区域特征转化为固定大小的feature map(变为 W×HW \times HW×H),方便后面cls softmax,bbox regressor训练。二、 算法流程——————————————...原创 2019-02-22 11:33:23 · 375 阅读 · 0 评论 -
RCNN系列——Faster RCNN anchor生成解析
RCNN系列——Faster RCNN anchor生成解析一、简介Faster RCNN里的anchor 是一个矩形框,用于box regressor, 可以减少网络计算量, 把anchor 数目定义为kkk,featur map每个点只预测kkk个box,然后与anchor计算偏差,回归更加精准的框位置。假设feature map 尺寸为W×HW \times HW×H,输出anchor...原创 2019-02-22 14:43:02 · 4818 阅读 · 0 评论 -
Loss——Focal Loss
Loss——Focal Loss一、简介Focal Loss论文地址:https://arxiv.org/pdf/1708.02002.pdfFocal Loss是基于Cross Entropy修改的,是解决分类不均衡问题的一种方案。 reduces the relative loss for well-classified examples,(pt > :5), putting m...原创 2019-02-24 21:12:10 · 907 阅读 · 1 评论 -
人脸检测——FDDB数据集评估
人脸检测——FDDB数据集评估一、FDDB数据集简介FDDB数据集官网:http://vis-www.cs.umass.edu/fddb/index.htmlFDDB数据集用于人脸检测算法。This data set contains the annotations for 5171 faces in a set of 2845 images taken from the Faces i...原创 2019-02-20 21:43:58 · 7100 阅读 · 0 评论 -
人脸检测——基于YOLOV3的人脸检测训练、评估、部署
人脸检测——基于YOLOV3的人脸检测训练、评估、部署简介最近,在·YOLOV3上训练 WIDER FACE 数据集,自己写了个Focal Loss,最后结果比较理想,在 NVIDIA GTX 1080TI 11G 上速度为30帧,细节请看github,项目源码地址: https://github.com/jmu201521121021/FaceDetector-Base-Yolov3-sp...原创 2019-03-13 14:45:48 · 6181 阅读 · 0 评论 -
Arcface训练vgg2face数据集——数据制作
Arcface训练vgg2face数据集——数据制作简介本博客是基于开源项目insightface训练vgg2face。训练首先要对数据里面的人脸图片进行检测,接下来进行人脸对齐,保存对齐后的图片,最后生成一个和原来数据文件目录一样的存放图片文件夹和一个lst文件,lst存放图片绝对路径和每张图片对应类别ID。代码解读利用 $INSIGHTFACE_ROOT/src/align/al...原创 2019-04-14 21:36:13 · 3435 阅读 · 6 评论 -
目标检测|安装 mmdetection
github:https://github.com/open-mmlab/mmdetectionpaper:https://arxiv.org/abs/1906.07155一、简介mmdetetion是香港中文大学 MMLab实验室开源的目标检测框架, 是一款基于pytorch 深度学习框架搭建的目标检测库,包含很多主流的算法,包括anchor、anchor-free, one-sta...原创 2019-09-10 15:27:52 · 6647 阅读 · 6 评论 -
深度学习中解决过拟合(over fitting)、欠拟合(underfitting)的方案。
深度学习中解决过拟合(over fitting)、欠拟合(underfitting)的方案。简介在深度学习训练和测试数据过程经常会遇到过拟合和欠拟合的问题。过拟合(over fitting):就是模型在训练集上精度达到我们需求,而在测试集上效果偏差。欠拟合(under fitting): 就是模型在训练集上精度不理想,无法达到我们要求。举个例子accuracyaccur...原创 2019-02-06 12:11:45 · 1323 阅读 · 0 评论 -
深度学习——全连接层(Fully connected dence layers)原理解析
深度学习——全连接层(Fully connected dence layers)原理解析一、简介全连接层有多个神经元,是一个列向量(单个样本)。在计算机视觉领域正常用于深度神经网络的后面几层,用于图像分类任务。全连接层算法包括两部分:前向传播(Forward)和反向传播(Backward)二、 算法解析前向传播(Forward)上图主要有5个变量,x,a,W,b,σx, a...原创 2019-02-03 12:46:20 · 26298 阅读 · 0 评论 -
darknet 源码阅读(网络层代码)——batch Normalize 层(BN)
简介论文链接:https://arxiv.org/abs/1502.03167yolov2中,根据论文所讲,通过在所有convolutional layer后添加batch normalization层,map提升2%.并且相对于yolov1,移除了droupout,BN提升了模型的泛化性,有效避免过拟合。BN原理简约公式:xi=xi−xˉ1N∑jN(xj−xˉ)2(1) x_i = ...原创 2019-01-27 21:42:13 · 1415 阅读 · 0 评论 -
标注工具labelImg的安装和使用
一、labelImg简介labelImg是一款开源的图片标注工具,可以在上面画框和标注对应的类别,由python和Qt编写而成,将标注信息存放在xml中。labelImg的github地址:下载地址 二、windows10下安装下载labelImg安装Anocanda python2.7: 下载地址,默认安装就可以,记得勾选添加环境变量。安装后重启电脑,进行下原创 2018-01-29 19:50:44 · 8824 阅读 · 1 评论 -
基于Canny算子边缘检测的基本原理和C++/C源码实现
基于canny算子的边缘检测源码和实现步骤参考链接欢迎使用Markdown编辑器写博客快捷键Markdown及扩展表格定义列表代码块脚注目录数学公式UML 图:离线写博客浏览器兼容基于canny算子的边缘检测源码和实现步骤参考链接欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来...原创 2018-06-08 17:11:14 · 6383 阅读 · 1 评论 -
图像复原与重建篇——运动模糊
运动模糊原理介绍运动模糊C++代码实现运动模糊原理介绍运动模糊产生: 由于相机传感器或物体相对运动, 按快门瞬间造成图像产生运动模糊。假设图像f(x,y)f(x,y)f(x,y)进行平面运动,x(t0)x(t0)x(t_{0})和y(t0)y(t0)y(t_{0})风别是在x和y方向上随时间变化的量。那么介质上(如胶片或数字存储器)上任意点的曝光总数是通过对时间间隔内瞬间...原创 2018-06-09 17:19:14 · 8109 阅读 · 6 评论 -
insightface测试megaface流程
insightface github地址: https://github.com/deepinsight/insightface megaface database地址: http://megaface.cs.washington.edu/一、简介insightface 测试megaface数据集的流程: 对megaface和 facescrub数据集中的人脸对齐提取megafac...原创 2018-07-22 09:43:58 · 8478 阅读 · 20 评论 -
OpenCV3.X 编译 ——libpng库问题相关解决方法
OpenCV3.X 编译 ——libpng库相关问题解决方法简介在ubuntu16.04 编译的, Opencv版本 OpenCV3.0 OpenCV3.2原本电脑自带 libpng1.2.0,而OpenCV3.X 要求比这个版本高,我用的是libpng1.6 版本,成功编译遇到问题1 undefined : png_set_longjmp_fn2 更新完 libpng 后报错,...原创 2019-01-09 09:32:25 · 2221 阅读 · 0 评论 -
darknet 源码阅读(数据预处理篇)—— voc_label.py
darknet 源码阅读(一)——yolo 数据预处理篇(voc_label.py)简介本文都是基于darknet-AB版本源码进行解读。源码链接:https://github.com/AlexeyAB/darknetvoc——label.py 是yolo训练前数据预处理一部分,主要功能: 根据VOC数据集 ImageSets\Main目录下的train.txt、test.txt val...原创 2019-01-15 21:44:21 · 6483 阅读 · 17 评论 -
darknet 源码阅读(数据预处理篇)——制作VOC格式数据集
一 、简介VOC文件目录结构├── Annotations├── ImageSets│ └── Main├── JPEGImages1、需要在Annotations文件下生成所有图片对用的xml文件2、ImageSets└── Main 是存放txt文件,2007train.txt 2007test.txt 2007val.txt txt文件里面包含是图片名称(没有后...原创 2019-01-15 22:18:39 · 1044 阅读 · 0 评论 -
darknet 源码阅读(数据预处理篇)——K-means生成anchor
darknet 源码阅读(数据预处理篇)——K-means生成anchor一、简介yolov2开始采用Faster RCNN RPN的anchor方法,区别在于,RPN是采用手动设置anchor尺寸,而yolov2是采用k-mean聚类,获得K个anchor尺寸。K-means 算法K-means 简称K-均值聚类,该算法最终将训练数据分为K个靠近彼此的不通样本聚类。算法流程...原创 2019-01-16 13:33:37 · 2984 阅读 · 0 评论 -
darknet 源码阅读(网络层代码)——yolov3 yolo_layer
yolov3 yolo_layer原理解析和代码解读简介yolo 层是 yolov2 v3的最后一层,输出x,y,w,h,confidence, class。本篇博客主要介绍yolov3的loss。yolov3 loss 解读yolov3 loss 由 box、confidence 、class 三部分loss组成。box loss 采用 sum square error, co...原创 2019-01-27 15:15:29 · 5521 阅读 · 12 评论 -
windows10下安装opencv3.2+QT Creator+MingGW
一、安转步骤download QT5.9download Cmakedownload openCV3.2 sources codemake & make insatll opencv with using Cmake配置环境变量run a demo二、软件下载QT5.9下载地址:http://download.qt.io/official_releases/qt/原创 2017-12-22 01:09:37 · 1915 阅读 · 1 评论