Bidirectional Learning for Domain Adaptation of Semantic Segmentation详读

Bidirectional Learning for Domain Adaptation of Semantic Segmentation

简介

语义分割在深度网络的驱使下发展迅速,但是大规模的数据标注太过昂贵。虽然,近期的工作可以通过生成式网络使计算机生成带标注的比较逼真的图像,但是这种方式生成的图像存在域不匹配的问题,即计算机生成的图像(源域)和测试时使用的图像(目标域)之间的差异。域适应就是着重解决这一问题的方法。在更极端的情况下,目标域甚至没有可以使用的标注标签,这种情况下带标注的数据生成问题称为无监督的域适应问题。
传统的域适应问题通过减小源域和目标域之间的均值或者方差等度量标准,将源域的数据进行一定程度的变换,映射到目标域。但这种方法很受限,且在语义分割任务中不容易实现。由于cycle gan的提出,图像到图像的域迁移问题的取得发展。具体的做法是:定义两个自网络,一个为域变换子网络,另一个为分割自网络。先使用cycle gan等域变换子网络将源域图像映射到目标域,将其和原始目标域的图像一同放入分割子网络中,对输出的特征图使用鉴别器判别,判别结果反映了域变换子网络是否逼近目标域的分布,从而进一步优化域变换子网络向目标域靠近,从而减小域差异。因此,图像的域变换子网络直接影响了整个过程以及最后分割子网络的性能。本文作者在这些工作的基础上,改进域变换子网络的学习过程,将原本的单向学习转化为双向,两个方向相互促进,进一步减少域差异。
作者提出在前向传递过程(由域变换子网络到分割网络的过程)中,先使用自监督训练分割网络。自监督的学习过程为:先使用域变换子网络生成的带标签的数据训练分割子网络,然后将分割子网络对目标域数据的分割结果中置信度高的像素块也加入到训练分割子网络的过程中,进行有监督学习,提升分割网络结果,这个过程并未使用目标域的标签,所以称为自监督。自监督有助于分割子网络实现域适应,从而有利于反向过程中域变换网络的学习。在反向过程中(由分割子网络到域变换子网络的过程),变换网络随着分割网络的学习进行更新会取得更好的结果,因此,作者提出了一个新型损失 perceptual loss,约束域经过变换网络后再分割的语义一致性(希望经过训练后的分割网络无论对于源域数据还是经变换后的数据,分割的结果差异不大,因为仅存在视觉上的变化)。域变换网络的学习同样也有助于前向过程的学习。
综上:文章有三个主要创新点:
1.提出了一个双向学习系统,是域变换网络和分割网络的闭环学习过程
2.提出自监督学习算法,在分割网络的特征级别对齐源域和目标域
3.引入了perceptual loss,监督域变换网络学习。

具体方法

1.单向学习和双向学习的对比:
a图是单向学习
前向过程(分割网络的学习):先设定一系列的表示:S是源域的数据(网络合成的),标签为Ys,T是目标域数据(真实的测试数据),无标签。F是域变换子网络的函数映射,M是分割子网络的函数便是。S’ = F(S)是源域数据经过变换子网络后的结果,T’ =F^(-1)(T)是目标域数据经过反域变换的结果。则前向过程主要是将源域数据S放入域变换网络得到S’和其标签Ys,将有标签的S’和无标签的T放入分割网络训练。这个过程通过两个损失来约束分割子网络,如(1)所示。第一项的具体含义是,S经过域变换子网络F后的S’和原目标域数据T一同输入到分割子网络后,使用鉴别器对网络输出的两个特征图进行判别,希望对两个输出的特征图越接近越好(结果接近程度反映了分割网络向目标域数据的倾斜程度),l_adv损失在分割网络的特征层面上约束分割网络的判别能力向目标域数据偏移。第二项l_seg的具体含义是常规的分割损失。
在这里插入图片描述
反向过程(域变换网络的学习):反向的过程的约束主要是添加了l_per损失,在(2)中是第三项,具体操作是将经过域变换S’和未经过域变换的数据S在分割网络中的输出结果作一致性损失,含义是希望对于S和S‘,S和S‘之间尽管存在视觉上差异,但是对于训练好的分割子网络对其输出的语义标签之间应该依旧存在一致性。第一项l_gan是在域变换网络后增加鉴别器,监督生成器生成的数据向目标域偏移。第二项l_recon是cycle gan中的重构损失,即希望变换的过程是可以重构的。
在这里插入图片描述
2.自监督学习
自监督学习主要被添加到前向过程中,用来进一步提升分割网络M的性能。原始分割网络训练过程并没有使用带标签目标域数据进行有监督训练。对目标域数据进行有监督训练可以更快的帮助分割网络对目标域数据进行拟合,因此使用添加伪标签的做法,将置信度高的测试数据的分割结果加入到训练分割网络的过程。因此上述的(1)增加了自监督学习后修改为(3):
在这里插入图片描述
添加了自监督学习后网络对数据的拟合过程图的前后对比:
在这里插入图片描述
(a)图的含义是不使用自监督学习,仅通过l_seg和l_adv对网络进行约束,分割网络逐渐可以拟合一部分的目标域数据。(b)图的含义是使用自监督学习,(b)图第二步是选取置信度高的目标域数据帮助训练分割网络的过程,经过自监督学习对分割网络来说很容易学习到目标域中的一部分数据,令分割网络对这部分数据拟合,随着这部分数据的增步增加,理想情况如图(b)中的第三步。
网络的整体结构:
在这里插入图片描述3.网络的训练过程:
输入是源域数据S和标签Ys,目标域数据T和自监督数据T_ssl(初始为空集),和在源域上训练好的分割网络M,输出即为经过K次双向学习的域变换网络和分割网络。训练过程算法如下表所示,主要包括两个循环,第一个循环是双向学习的过程,第二个循环是自监督学习的过程。
在这里插入图片描述

### 回答1: 双向布局通常包括两个部分:一个是正向的,即从左到右的布局;另一个是反向的,即从右到左的布局。这两个部分通常是对称的,并且在设计上应该保证它们的一致性。在图形双向布局的视觉布局通常包括两个部分:一个是从左到右的正向布局,另一个是从右到左的反向布局。这两部分通常是并列排列,也可以是嵌套排列。在视觉上,正向布局和反向布局是对称的,并且可以在同一页面上同时显示。 ### 回答2: Visual layout of bidirectional refer to the design and arrangement of text written in a language that is read from right to left (RTL) or bidirectionally (BIDI) along with the languages that are read from left to right (LTR) in a single document. The visual layout is the arrangement of text regarding how certain elements appear on a page, such as headings, images, and paragraphs. In bidirectional design, the visual layout takes into account the different direction of the text, making sure the text flows in the correct order and that the appropriate layout is used for RTL and LTR languages. For example, in an RTL language like Arabic or Hebrew, text and images are aligned to the right, and the page layout flows from right to left. The design of bidirectional layout is crucial in creating documents that are easy to read and understand for speakers of multiple languages. A well-designed layout ensures readability for each language without causing confusion. One of the most essential elements of the visual layout of bidirectional is the directionality control character, which determines the direction of the text. The control character is usually inserted at the beginning of each segment of text, and it helps the computer to display the text correctly. Other important elements of bidirectional design include fonts, color selection, line spacing, and margins. Correct font pairing ensures that text is legible in both directions, while the right color selection highlights specific text elements such as headings and subheadings efficiently. In conclusion, bidirectional layout is an essential element in creating documents that are inclusive and accessible to speakers of multiple languages. Proper visual layout is critical in ensuring readability and making sure important text elements stand out, which ensures that the information is easily understood, making it easier to achieve the desired communication goals. ### 回答3: Visual layout of bidirectional是指双向排版中的视觉布局,旨在使阅读和理解从右至左和从左至右的文字变得更加方便和自然。双向排版是一种使用不同语言的国家必不可少的技术,如阿拉伯语、波斯语、希伯来语等等。此类语言中的文字不仅从左至右书写,还存在从右至左书写的情况。 使用双向排版,可以容易地实现不同语言之间的混排,以及在书写不同语言时,让字母位置、词汇顺序等布局显得自然和准确。在阅读过程中,双向排版增强了阅读的连贯性,使读者能够更加便捷地理解文章的内涵和语义。 在双向排版中,一个核心问题是如何避免阅读者阅读时混淆文字顺序,尤其是在从右至左和从左至右转换时。解决该问题的一种方法是使用反向符号来表达文本方向,例如使用右括号">"表示从右至左的文本方向,使用左括号"<"表示从左至右的方向。 掌握这些符号的技巧可以帮助人们更好地学习和理解双向排版。 同时,正确的双向排版需要适当的文段和行间间距,便于读者阅读和理解,在不同的文字排版模式下保证相同的文字规范和排版方式。通常,双向排版的书写习惯被证明是有一定的普适性的,因此在不同国家和文化中,人们都试图将这种排版方式应用得更加自然和舒适。 双向排版是现代信息时代不可忽视的一个方面,在实际应用中也有一系列的优缺点。请注意,双向排版所采用的视觉布局方法需要具备普适性和实际性,同时也需要应对多种不同的方向和排版模式。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值