计算机视觉

本文详细介绍了计算机视觉中的目标检测技术,包括R-CNN系列(R-CNN, Fast R-CNN, Faster R-CNN)以及Mask R-CNN, YOLO和SSD。这些方法通过不同的策略来解决物体检测中的尺度变化、位置识别等问题,其中Faster R-CNN引入了区域提案网络(RPN)实现端到端训练。文章还讨论了关键概念如mAP、NMS以及不同算法的优缺点。" 103480537,9172009,CentOS 安装MySQL5.6.33详细步骤,"['Linux', '数据库', 'MySQL', '系统管理', '服务器配置']
摘要由CSDN通过智能技术生成

计算机视觉

主要任务:通过对采集的图片或视频进行处理以获得相应场景的信息。

马尔提出的计算机视觉非常重要的观点:人类视觉的主要功能是通过大脑进行一系列处理和变换,来复原真实世界中的三维场景,并且这种神经系统里的信息处理是可以用计算的方式重现(理论,算法和硬件)。

端到端的学习/训练:完全交给深度学习模型直接学习从原始数据期望输出的映射

object detection

物体再哪里以及是什么

问题:物体的尺寸变化范围很大,摆放物体的角度,姿势不定,可以出现再图片的任何地方,还是多类别

目前学术和工业界出现的目标检测算法分成3类:

  1. 传统的目标检测算法:Cascade + HOG/DPM + Haar/SVM以及上述方法的诸多改进、优化;

  2. 候选区域/窗 + 深度学习分类:通过提取候选区域,并对相应区域进行以深度学习方法为主的分类的方案,如:
    R-CNN(Selective Search + CNN + SVM)
    SPP-net(ROI Pooling)
    Fast R-CNN(Selective Search + CNN + ROI)
    Faster R-CNN(RPN + CNN + ROI)
    R-FCN 等等

  3. 基于深度学习的回归方法:YOLO/SSD/DenseBox 等方法;以及最近出现的结合RNN算法的RRC detection;结合DPM的Deformable CNN等

img

fine-tuning:使用预训练的网络来重新fine-turning(微调)

一般使用多个filter分别进行卷积,最终得到多个特征图

感受野:原始区域

FCN:先卷积,再计算,只计算一次

缺点:感受野大小固定,卷积窗口固定,效果可能不会得到非常好的效果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值