视觉识别(Visual Recognition)-- 总结

1. 基本概念

1.1 视觉识别

     视觉识别包含以下内容:
     1)Image Classification
     2)Object Detection 
     3)Object Localization
     4)Instance Segmentation
     5)Human pose estimation [Newell et al 2016]
     6)Depth estimation [Laina et al 2016]
     7)Segment proposal [Pinheiro et al 2016]

1.1特征提取

     特征提取:目前流行的方法是通过CNN来提取特征。

     CNN网络越深,提取的特征越能表述目标的特征;CNN网络越深,就会遇到以下两个问题:

     • 收敛问题(梯度消失或爆炸):可通过初始化优化方法和批量归一化方法(BN)来解决

     • 准确度下降问题(网络越深,训练误差和测试误差越大:可通过深度残差学习(Deep Residual Learning)来解决

1.2 过拟合(Overfitting)

      过拟合一直是DeepLearning的大敌,它会导致训练集的error rate非常小,而测试集的error rate大部分时候很大。克服过拟合的方法有:

1.2.1 数据扩增 (Data Augmentation)

      对现有数据进行变换,使得总数据量得到提升,常用的变换方法有:

       (1) 截取256x256

             给定任意图像,按等比例把较短的边缩放为256,然后从中间截取256x256大小的部分;

       (2) 图像平移和水平翻转

              训练集:从256x256的图像中提取224x224的小块,然后进行水平翻转,使数据集可扩增至2048倍((256-224)*(256-224)*2=32*32*2=2048),即从一张图可得到2048张图

              测试集:从256x256的图像中提取5个224x224的小块(每个角落一个,中心一个),然后进行水平翻转,则共有((4+1)*2=10)10 个,最后分别对10个图像进行预测,并计算10个预测值的平均值

       (3)   改变训练图像RGB的强度(对RGB空间做PCA,然后对主成分做一个(0, 0.1)的高斯扰动)

              训练集:在训练集的RGB通道上做PCA,但是不降维,只取特征向量和特征值,对训练集上每张图片的每个像素加上值:,其中pi和λi分别表示特征向量和特征值,αi表示高斯随机变量(均值为0,方差为0.1),此方案近似抓住了图像的一个重要属性,即图像的特征不随光照的颜色和强度的变化而变化

1.2.2 正则化方法Dropout

      Dropout层一般用在FC层之后,在正向传播时,设置隐层神经元以0.5的概率为0,这些被“drop out”的神经元也不参与反向传播。这种方式使得网络强制一部分神经元来表示当前的图片,很大限度上降低过拟合。但是这样一定程度上会延长训练的时间,因为随机性不只是会打乱过拟合的过程,也会打乱正常拟合的过程。 在测试时,不使用Dropout,使所有神经元参与运算,给他们的结果乘以0.5来作为输出值。

     其实,最后不乘0.5也是可以的。如果在分类的时候使用的不是原来的softmax,那么只要特征之间可以区分就行了,乘不同的系数只是放大或者缩小了这种差别。

1.3 top-1 and top-5 error rate是什么?

      1)top-1 error rate = the number of (与最大的预测概率对应的class == target label)/(the total prediction number)

      2)top-5 error rate = the number of (target label包含在前5个最大预测概率对应的class中)/(the total prediction number)

2. CNN在CV中的应用

2.1 应用框架

2.1.1 CNN应用框架

       

       1)classification network:给出了图像块的类别的概率分布

       2)detection network:进一步为每一类给出了一个bounding box

2.1.2 目标检测框架

     

2.2 R-CNN目标检测法

      

2.3 Fast R-CNN目标检测法

      

2.4 Faster R-CNN目标检测法

           


2. 目标检测方法列表

算法名称算法特点解决的问题时间性能
CNN    
R-CNN    






  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值