最优化方法大作业

1研究背景和目的

1.1研究背景

近年来,随着国民经济和工业化进程的快速发展,城市生态环境和基础设施得到了不断的改进和完善。城市已从人类单一定所逐渐转变成为人与自然交融而成的有机整体(张平等,2022),其内部系统承载了物质、能量和信息的动态演

变与相互传递。作为城市的重要标志,建筑物反映了当地的景观外貌和文化内涵。城市建筑的轮廓和社会功能信息是表征人口分布和区域发展的重要数据基础(Liet al, 2020; Guo et al, 2021),对于地理国情监测以及智能城市规划与管理等领域有着重要的意义。此外,建筑物也是城市物质与能量交换的重要场所。城市建筑的形态结构信息与城市能源消耗和气体排放密切相关,是实现可持续发展和碳中和目标的必要数据支撑(Huang et al, 2017; Wu et al, 2018)。因此,对建筑物的空间和属性复合信息进行分析,对于深入洞察城市变迁,并感知、理解与模拟其内在规律与机理至关重要。

得益于地理信息、测绘遥感和人工智能等相关技术的发展,针对城市建筑物的信息提取研究从以人力为主的传统方法转变为以数据驱动的智能化方法(张兵等,2022)。目前,利用地球观测数据和机器视觉方法提取建筑物信息已成为主流研究范式。尤其是深度学习方法,因其出色的特征学习和推理预测能力,已在相关应用中取得了出色的成绩。但当前研究主要关注于提取建筑物的空间信息(如建筑轮廓等)(赵鹏飞等,2020:郭怡帆等,2014),而对属性信息(如结构、功能等)提取的研究相对较少。随着城市感知与建模不断趋于精细化,仅有建筑物的空间信息无法满足逐渐深入的研究要求,亟需更丰富的建筑物属性信息提供支撑。虽然众多学者已对建筑属性提取展开了研究,但这些研究大多聚焦于求解单一任务。这就导致在需要建筑复合信息参与的应用中,不同研究所提取的属性难以直接融合。而想要直接创建时空一致的多属性数据,又需要将单任务模型重复调用,导致资源浪费。为此,如何从已有的地球观测数据中高效提取建筑复合信息,成为精细化城市感知与建模研究的关键前提(吴志强等,2022)。

近年来,多任务深度学习已成为深度学习领域的热点方向之一,被广泛应用于计算机视觉、自然语言处理、语音识别等多个领域。多任务深度学习在端对端的神经网络架构基础上,通过引入多分支结构和参数共享机制实现多个任务并行处理。多任务深度学习的核心思想是,从已有数据中挖掘出对多个任务都有益的特征信息,并利用多个任务学习到的知识相关性相互博弈,最终达成整体精度的平衡与提升。此外,多任务深度学习也注重通过对任务权重的调整实现任务间的均衡学习,从而更好地应对不同任务数据不平衡的问题。因此,对于建筑物复合信息提取这一具有挑战性的任务,多任务深度学习极具潜力。

多任务深度学习具有高度数据驱动的特点,输入数据的质量直接影响了模型最终的推理精度。若不加选择地将数据输入模型,将引入较多噪声和冗余信息,最终导致模型难以收敛。在地球科学领域,获取高质量标注数据的人力和时间成本较为高昂。在以往的建筑物信息提取研究中,研究者通常采用如随机抽样(马红,2015)、系统抽样和分层抽样(段光耀等,2014)等传统数据抽样方法获取数据。然而,这些方法忽略了建筑物空间分布信息及其所在地理环境背景,导致所抽取样本的类别信息严重失衡或高度冗余。因此,在大范围内采集样本数据时,亟需结合样本数据的地理分布及其所在环境特征,建立多维度的目标来约束样本质量,并结合启发式算法进行智能求解。在节省人力成本提高采样效率的同时,获取到具有代表性的高质量样本。

本研究从城市建模研究中基础地理信息数据的获取需求出发,设计基于端对端神经网络的建筑物复合信息联合提取方法框架,旨在为城市建模研究提供数据获取方法与高质量的数据支撑。本文所提的方法框架可分为数据获取与模型开发应用两部分,前者以样本数据的地理环境先验信息为指导,抽取具有代表性的模型训练数据,后者利用多任务深度学习方法同时提取城市建筑物空间和属性信息。

1.2研究目的

(1)建立顾及城市环境先验信息的空间优化抽样方法,提取具有代表性的高质量训练样本数据,降低数据标注成本并提高深度学习模型的推理预测性能。

(2)构建多任务深度学习网络模型,实现多任务联合求解优化及端对端计算架构,提升复杂问题求解的简洁度以及模型预测推理的泛化能力。

(3)将本文所提方案应用于城市全域建筑物的信息提取,制作城市尺度建筑物复合信息数据集,为城市建模研究提供方法和数据支持。

1.3研究现状

随着人工智能技术的快速发展,深度学习方法在自然图像分类、目标检测和语义分割等任务中取得了重大突破。尤其是卷积神经网络等深度学习架构,已被广泛应用于计算机视觉任务中(Alzubaidi et al, 2021)。这类深度学习模型的一大优势是其独立于先验知识和人工制作的特征提取,这使得它拥有更强大的泛化能力,并在准确性和效率方面优于其他方法(Kattenborn, et al, 2021)。与传统人工设计特征的方法相比,卷积神经网络能够自动提取输入图像的特征,以其强大的

表征能力逐渐取代了传统的人工特征方法。由于卷积神经网络显示出的强大优势,越来越多的研究人员已尝试将其应用到遥感领域,并已在遥感影像分割和识别方

面取得了一些进展(宋文宣等,2022;王国杰等,2022)。

用于提取建筑物空间和属性信息的深度学习方法主要包括语义分割目标检测两大类。语义分割方法对图像进行像素级的识别和分割,从而获得图像中物

体的类别信息以及精确的位胃信自,而日坛拾测则可对图像中的多个物体进行识别和定位,并给出其边界框。近年的研察也5力干涌过应用卷积神经网络来改进建筑物信息的提取。如Minh首牛将卷和袖经网终应用于从遥感影像中提取建筑物,并提出了一种基于图像块的方法(Mnih.2013)。Li等提出了ResNet和U-Net的改进和扩展架构,以提高分割结果的准确性(Liet al,2021)。Chen等改进了损失函数源,添加梯度惩罚项以改善建筑物轮廓的生成结果(Chen et al, 2021).Alidoost 等提出了一种迁移学习方法,自动检测和识别屋顶类型(Alidoost ct al,2018)。

上述研究已在结合深度学习方法提取建筑物信息方面取得了优秀的成果,然而其中大多数仅聚焦于特定任务,实行单任务学习。实际上,遥感影像中部分建筑群结构复杂,其中建筑排列紧密且属性各异,使得大多数语义分割方法很难单独分离对象并正确识别属性(高鹏飞等,2023)。此外,在大多数情况下,用户不仅需要知道哪些像素属于建筑(语义分割问题),还有建筑的确切属性(目标检测任务)。在这种情况下,面向实例的建筑分割及监测就尤为重要。有必要建立端到端的多任务深度学习框架来解决建筑复合信息的联合提取,用单个神经网络代替多阶段的处理过程,从而调高提取效率、减少资源开支。

2.参考文献概述

卷积神经网络(CNN)在使用大规模数据集训练的情况下,在特征提取和分类任务 中展现出了极强的潜力,其在建筑物特征提取方面起到了良好的作用并被广泛应用。

❑ Yushi Chen 等人基于深度学习的优势,提出了一种基于卷积神经网络(CNN)的正 则化深度特征提取(FE)方法用于高光谱图像(HSI)分类有助于图像分类和目标检 测(Yushi Chen 等,2023)。

❑ 基于卷积神经网络的方法提取建筑轮廓,下采样操作会丢失输入图像的空间细节,高层特征中省略了小型建筑。由于遮蔽树和相邻物体的遮蔽不能有效地保存语义信息,可能会导致错误。Haonan Guo 团队设计了一种边缘保持神经网络 (EPUNet),将边缘检测与所提出的 SG-EPUNet 框架中的上下文聚合相结合,可 以更健壮地提取建筑特征。该方法将建筑先验图像与高分辨率遥感图像相结合, 可在实际应用中自动生成最新建筑轮廓(Haonan Guo 等,2021)。

❑ Haonan Guo 等人还提出了一种新的粗到细边界细化网络(CBR-Net)和一种新的边界细化(BR)模块,增强了 CBR-Net 模型感知和细化建筑边缘的能力(Haonan Guo 等,2022)。

Zhen Qian 团队研究设计了一种端到端和面向细节的深度学习网络 Deep Roof refiner,并提出了一种综合策略来提高网络的性能,来获取更细粒度、更准确的地理空间数据如屋顶结构线(RSLs)Zhen Qian 等,2022)。

Bo Wang 等人提出了一种基于 CNN 和通道空间注意力的建筑风格分类方法,可以提高建筑风格分类的准确性,提取不同构件的空间特征(Bo Wang 等,2021)。

3.方法和技术路线

为解决在提取建筑特征时不同建筑构件的空间特征缺失问题,本文提出基于CNN(卷积神经网络)和channel–spatial attention(空间通道注意力机制)的建筑风格分类方法。

(1)选择性预处理

由于一张图像中往往会存在与建筑本身无关的物体(如人、树、汽车等),因此为了提高分类的准确性,本文首先通过选择性预处理获得图像中的建筑候选区域,本文采用选择搜索算法和CASC(Candidate Area Size Comparison),具体步骤如下:在选择搜索算法中,我们基于图形的分割方法获得像素级的分割区域,利用该算法的多重相似性策略进行区域合并,以此捕获所有物体的候选区域。其次,我们使用CASC方法计算所有对象的候选区域的像素数,并选择像素数最大的区域。最终选出建筑候选区域。

(2)CNN特征提取

在这一步中,以上一步获得的建筑候选区域作为特征提取器的输入,使用Inception-v3模型提取特征,得到建筑物的特征图。

(3)CSAM(Channel-Spatial Attention Module)

CSAM主要由两部分组成,分别为Channel attention operation(通道注意操作)和Spatial attention operation(空间注意操作)。前者学习注意力的内容,生成通道信息;后者学习注意力的地点,生成空间注意图。具体步骤如下:首先使用Inception-v3模型的倒数第二层的feature map作为CAM(Channel Attention Module通道注意模块)的输入,得到输出attention map,再将其作为SAM(Spatial Attention Module空间注意模块)的输入,最终输出获得spatial attention map(空间注意图)。

(4)分类器学习

为了建立CSAM得到的注意力特征描述符与分类标签之间的关系,本文使用Softmax分类器来预测分类目标的类别。同时使用交叉熵损失函数来更新权重。交叉熵损失函数定义如下:

)545Q2G(5P~FZL8[37Z23LY_tmb

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值