计算机视觉笔记二

国家级退堂鼓

已于 2023-11-13 15:39:54 修改

阅读量66

点赞数

分类专栏： yolov8 文章标签：计算机视觉笔记深度学习

于 2023-06-13 15:11:49 首次发布

本文链接：https://blog.csdn.net/qq_45009309/article/details/131088812

版权

yolov8 专栏收录该内容

4 篇文章 3 订阅

订阅专栏

数据扩充

垂直镜像对称(mirroring on the vertical axis)

在这里插入图片描述

随机裁剪(Random Cropping)

在这里插入图片描述

色彩转换

目标定位(Object Localization)

图片分类：算法遍历判断其中的对象是不是汽车。
定位分类：不仅需要判断出物体，还需要在图片中标记出它的位置。
在这里插入图片描述
图片分类问题：输入一张图片到多层卷积神经网络后输出一个特征向量，并反馈给 $so f t ma x$ 单元来预测图片类型(例如：汽车、人、背景等)。
定位分类问题：则要在此基础上输出一个边界框，其信息为 $b_x$ 、 $b_y$ (边框中心点坐标)、 $b_h$ (边框高度)、 $b_w$ (边框宽度)。

特征点检测

批量添加输出单元，用以输出要识别的各个特征点的(X,Y)坐标值

目标检测

基于滑动窗口的目标检测算法在这里插入图片描述
首先创建一个标签训练集(X,Y)，然后将其输入到卷积神经网络中，输出0(无汽车)或1(有汽车)，训练完这个卷积网络后，利用滑动窗口来目标检测，思路如下：以固定步幅度滑动窗口，遍历图像的每个区域，把这些剪切后的小图像输入卷积网络，对每个位置按0或1进行分类。
在这里插入图片描述
卷积的滑动窗口实现
将全连接层转换为卷积层，转换的卷积层=滑动窗口 + 全连接的作用，一次性所有滑动窗口进行计算得出输出结果。