那些年我们一起犯二的青春--文献一--注解 IGRSS-2015-2th

免责声明:本文仅代表个人观点,如有错误,请读者自己鉴别;如果本文不小心含有别人的原创内容,请联系我删除;本人心血制作,若转载请注明出处

BENCHMARKING CLASSIFICATION OF EARTH-OBSERVATION DATA:
FROM LEARNING EXPLICIT FEATURES TO CONVOLUTIONAL NETWORKS

摘要:

1、本文我们实现了多分辨地标观测数据(EO data)的语义标记任务

2、我们实现了专业分类器,支持向量光谱分类和高抽象特征输入到深度神经网络

3、我们发现: 1)结合多传感器特征是检索一些特殊类所必需的

                         2)在图像领域,CNN性能显著

                         3)从大的通用数据集转换和学习对建立EO data 分类器非常有用

引言:

1、城区中心使用EO data的研究面临以下困难:众多的差异巨大的(语义)类,因为图像获取的角度和正射校正导致

      几何学上的一些隐藏和奇异。

2、语义标记演化为数据的分辨率和有标签的数据的可用性,高分辨图像很重要,可以提供更多信息。

3、图像描述演化为允许目标建模的(分类)的对于纹理的复杂特征

4、同时,有标签的数据集允许严格的验证算法用于多城区分类,CNN网络更多应用于训练大数据集。

5、面临的问题:哪种方法最合适? 是否有一个通用的分类器用于大量标签不同的数据? 语义类可能拥有差别巨大的结构,从大的,疏松的结构(植被区域) ,结构性的目标(车,街道家具),而且,随着高分辨(VHR)图像的出现 ,后者在变得越来越常见。

6、IEEE GRSS 数据融合竞赛数据包含了大量的语义类,我们比较当下的不同方法,建立了8类 ground-truth     

(section2)

7、section 3--实现和比较了不同的方法,旨在基于像素和基于目标分类

标准(基准):

1、Dataset and ground truth The IEEE GRSS DFC Zeebrugge
      dataset ([7], referenced in the following as: grss dfc 2015)

     有7 正射修正的图(7张图),分别包含以下信息:

     1)10000 * 10000 像素 的正射影像(5cm 分辨率,RGB图像)

     2)最大为 5000 * 5000 像素的 数字表面模型(DSM) ,10cm 分辨率

     3)激光雷达 3D 点云,XYZI模式,X:维度,Y:经度,Z:高度,I:强度 

 而且,我们建立了一个ground truth(图 1)   

    

    定义了8个语义类,如表1所示

    

2、评价体系:使用交叉验证评价不同方法,图像{1,5,7}训练,图像{3,6}测试,确保所选数据集含有所有类,图2

     

      基于像素的分类使用每张图像的融合矩阵。

      tp:分正确的点     fp:分错误的点     fn : 漏掉的正确的点   

     Precision = tp / (tp+fp)

     Recall = tp / (tp + fn)

      F1 -score = 2 · Precision · Recall/(Precision + Recall)   

      讲的有点绕,可去查看我的另一篇博客http://blog.csdn.net/chenyanqiao2010/article/details/50114799

算法和标准(基准):

本章测试了 基于原数据的手工启发式学习算法和精心设计的图像描述子。

1、专业基线:

     我们建立了有标签特性的标线,他们中的大多数为RGBd数据的单通道滤波器,如果 d<45.4m,属于“水”这一类,如果d>50.5m,则是“建筑物”这类,,如果max(R, G, B) − min(R, G, B) < 6  && d < 52m,属于“路”这一类。  

假设所有观测陆地的激光雷达有近红外波,我们从激光雷达点云上推导出伪近红外图像,计算归一化植被指数:(N IR − R)/(N IR + R) ,并设置阈值为 0.6

2、基于原数据训练SVM:

      考虑到了不同输入:RGB(图像像素),RGBD(RGB+DSM) ,RGBID(I:从激光雷达推到处的伪红外信号)使用RBF核SVM和网格搜索寻参,使用超像素将第计算量

3、基于复杂特征训练SVM

      使用了两种高层次特征提取方法:

      1)、在空间光谱域,块(16*16 or 32*32)提取,使用HOGs(梯度方向直方图,手工特征的一种,在CNN出现之前在计算机视觉竞赛之前是绝对霸主)索引 ,使用RBF核SVM,使用网格搜索寻参,使用标准滑窗方法和光滑的结果图运用在分类器上?

 2)、使用多源信息:使用图像超像素,HSV(H-色度,S-饱和度,V-纯度)色彩直方图,DSM的平均梯度,使用线性SVM分类。

4、面向目标识别(没看懂)

  我们使用了两种面向目标的方法

  1)、(有区别训练模型混合)提升了有区别部分模型的性能(什么鬼?)。一个目标分类模型,基于均匀数据有区别模型训练混合:目标样本在视觉外观上聚类,在这些样本上得到HOGs,基于此训练线性SVM

  2)、自组织图(SOM,什么鬼?):从图像上学习视觉色彩表用来分割测试集图像。语义标签与SOM输出结合,从SOM分类图上导出

5、CNN和SVM

  CNN的中间层可以用作特征,使用三种网络训练ImageNet,VGG,overfeat,caffe,

        1)、产生231*231 图像块,滑窗(步长 32),使用线性SVM分类,将图像块中间的 32*32 赋为图像块的 label

        2)、加入DSM训练VGG,在RGB和深度网络的级联输出训练线性SVM,我们使用RGBD(DSM)     和  RGBD +(LiDAR)     

6、结果和总结

     图3:ground truth 和分类map

   

 表2列举了各种方法的性能

          1)、超像素引入了空间约束,对图分类方面很有意义。

          2)、多分辨信息非常重要:最好的两种方法结合了图像和DSM。

          3)、在图像领域,深度网络常用来构建通用的EO data 分类器,性能良好。

          4)、怎么在EO data 的上下文语境中使用神经网络:直接使用之前使用日常数据集(如ImageNet)训练好的网络,或者重新训练。

          5)、旧的方法在现在还是很有竞争力的:NIR 信息对植被识别效果好,比色法和深度对建筑物和水域效果好

          6)、面向目标的方法如果这样设计就效果好:目标中没有太多像素的时候,应用良好

总结:

1、多源信息结合对一些城区类意义重大

2、CNN性能良好

3、转换和学习大数据集(如:ImageNet)对构建EO data 分类器帮助很大。


         


      



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值