CV研究方向及综述

最新推荐文章于 2024-07-24 08:52:33 发布

_helen_520

最新推荐文章于 2024-07-24 08:52:33 发布

阅读量1w

点赞数 6

分类专栏：背景建模与前景提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haronchou/article/details/106500309

版权

背景建模与前景提取专栏收录该内容

31 篇文章 21 订阅

订阅专栏

计算机视觉的方向：图像分类、目标检测、图像分割、目标跟踪、图像去噪、图像增强、风格化、三维重建、图像检索、GAN

实际中的图像分类，如表情分类。用的是人脸和嘴部的location，这就是目标检测的先验在。同时HOG行人检测也是用来HOG+SVM的detect，即目标检测在前，图像分类在后的。

图像分类：多类别图像分类、细粒度图像分类、多标签图像分类、实例级图像分类、无监督图像分类。

分类方法：

传统机器学习：经典的特征算子+经典分类器组合学习，HOG+SVM
深度学习：Alexnet, VGG,GoogleNet,ResNet,DenseNet,SENet

目标检测：

目标的类别+概率：这是一个分类任务
目标的具体位置：location的任务

目标检测算法的三个模块：检测窗口的选择，图像特征的提取，分类器的设计

区域选择、提取特征、分类回归

传统方法：Haar+Adaboost, HOG+SVM
深度学习：RCNN系列在工业界的应用非常广泛，YOLO，SSD

图像分割：

目标跟踪：

2.目标检测

CV问题分为三类：图像分类、目标检测、神经风格迁移

目标检测：location定位问题。

总结：滑动窗口卷积——精确的检测框YOLO的原理、NMS非极大值抑制等等

没有很多数据时，就要自己手工设计特征。但是手工工程，如精心设计特征或者设计网络，非常需要技巧、洞察力和经验。

2.1 目标检测——吴恩达机器学习

object location目标定位，location问题就是在图片中用bounding box标记处位置。

2.1.1 目标检测的方法：滑动窗口法——车辆检测

先训练一个车辆分类的网络——CNN图像分类网络
对整张图像预测——输入整张图像，然后选择红色小框进入预测网络，判断红色框内有没有汽车

2.1.2 滑动窗口的卷积实现

滑动窗口算法可以用卷积方式实现，以提高运行速度，节约重复运算成本。

这里的关键就是将全连接层改为卷积层。改之前的滑动窗口需要反复进行CNN正向计算，改之后用卷积代替滑动窗口，不管原始图片多大，只需要进行一次CNN正向计算，就可以得到所有滑动窗口的预测结果，因为这里面共享了很多重复计算部分。

在卷积层上应用滑动窗口提高了整个算法的效率
但是缺点是：边界框的位置可能不够准确

2.1.3 滑动窗无法完全覆盖目标的问题

滑动框由于size和step的原因，无法正好覆盖目标，这时该怎么办？这些边界框没有一个能完美匹配汽车的位置。

且有些时候最完美的边界框甚至不是一个正方形，而是长方形。有没有办法让这个算法的输出更加精准呢？YOLO

you only look once。

第一个格子里面什么都没有，其标签的第一个Pc=0。然后这张图有两个对象，YOLO的做法是取两个对象的中点，然后中点在哪个格子里，这个对象就属于哪个格子。

网格划分的越小，一个网格内可能就只有一个目标的中心，就不会把多个目标都划在一个网格内，这样便于区分开多个目标。

3.数据增强 data augmentation

垂直镜像对称

随机裁剪：不是一个完美的数据增强方法，但在实践中还是很有用的，随机裁剪构成了很大一部分的真实图片。

彩色转换：在RGB三个通道上加上不同的失真值。在实践汇总，RGB的值是根据某种概率分布来决定的。使得算法对照片的颜色变化更鲁棒。

关注

6
点赞
踩
63

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。