计算机视觉笔记二

数据扩充

垂直镜像对称(mirroring on the vertical axis)

在这里插入图片描述

随机裁剪(Random Cropping)

在这里插入图片描述

色彩转换在这里插入图片描述

目标定位(Object Localization)

图片分类:算法遍历判断其中的对象是不是汽车。
定位分类:不仅需要判断出物体,还需要在图片中标记出它的位置。
在这里插入图片描述
图片分类问题:输入一张图片到多层卷积神经网络后输出一个特征向量,并反馈给 s o f t m a x softmax softmax单元来预测图片类型(例如:汽车、人、背景等)。
定位分类问题:则要在此基础上输出一个边界框,其信息为 b x b_x bx b y b_y by(边框中心点坐标)、 b h b_h bh(边框高度)、 b w b_w bw(边框宽度)。

特征点检测

批量添加输出单元,用以输出要识别的各个特征点的(X,Y)坐标值

目标检测

基于滑动窗口的目标检测算法在这里插入图片描述
首先创建一个标签训练集(X,Y),然后将其输入到卷积神经网络中,输出0(无汽车)或1(有汽车),训练完这个卷积网络后,利用滑动窗口来目标检测,思路如下:以固定步幅度滑动窗口,遍历图像的每个区域,把这些剪切后的小图像输入卷积网络,对每个位置按0或1进行分类。
在这里插入图片描述
卷积的滑动窗口实现
将全连接层转换为卷积层,转换的卷积层=滑动窗口 + 全连接的作用,一次性所有滑动窗口进行计算得出输出结果。
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

Bounding Box预测

YOLO(you only look once):你只看一次。
对于训练集图像中的每个对象,根据对象中点位置来分配到对应的格子中。
IoU衡量两个边界框重叠的相对大小。

非极大抑制

在对物体检查时,一个物体对应很多方格时,会对物体输出许多预测框。此时选取那个有效的框就显得很关键了。首先选择概率预测最大的框,非极大抑制就会审视剩下的矩形框,最大的边界框分别于周围的框有高度重叠的就舍去。只输出概率最大的框。
在这里插入图片描述

Anchor Boxes

锚框是为了处理两个对象出现在同一个格子的情况,选取与锚框交并比高的边界框,能够较好的输出预测框。

候选区域

R-CNN算法:带区域的卷积网络。
Fast R-CNN算法:采用滑动窗口进行卷积计算。
在少数窗口上运行卷积网络分类器,选出候选区域的方法是运行图像分割算法,分割算法中得到相应的色块,并在其色块上放置边界框后跑分类器。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值