1. 标题:DomainATM: Domain adaptation toolbox for medical data analysis.
2. 期刊:NeuroImage
3. IF/JCR/分区:7.4/Q1/中科院一区
4. DOI:10.1016/j.neuroimage.2023.119863
目录
1、导读
2、背景动机
3、研究目的
4、工具箱介绍
5、测试试验
6、局限不足
1 导读
域适应(DA)是基于机器学习的现代医学数据分析的一种重要技术,其目的是减少不同医学数据集之间的分布差异。本文基于Matlab编程语言和现阶段流行的一系列DA算法设计了一个易于使用的医学数据域适应分析工具箱(DomainATM)。该工具箱能够促进用于医学数据分析的不同适应方法的快速特征级和图像级适配、可视化和性能评估。同时,工具箱支持使用者添加自己设计的域适应算法,具有很好的可拓展性。DomainATM的概述、代码和使用说明均开源。
代码:https://mingxia.web.unc.edu/domainatm/
2 背景动机
2.1 域偏移
得益于人工智能技术的进步,医学数据分析如今也在蓬勃发展。经典的机器学习算法通常假定训练集(源域)和测试集(目标域)在统计上遵循独立同分布。然而在现实中,这种假设通常因为众所周知的“域偏移”而几乎难以满足。在医学影像中,域偏移或数据偏差因成像扫描参数不一致或多中心等原因而广泛存在。这种现象将会严重降低模型的实际使用性能,阻碍高效模型的开发。
2.2 域适应
为了缓解这个问题,域适应(1)的研究受到广大医学数据研究人员的高度关注(2)。域适应的问题是如何降低源域和目标域分布的不一致性,从而增强在下游任务(如分割分类等)的性能。
图1:“域偏移”现象的概览图。
2.3 目前域适应的研究
目前已有大量的医学数据域适应的研究,但大多数研究都是针对特定情景和目的的独立应用。研究人员需要多次重复使用某种域适应算法或进行一些方法上的拼接组合。目前缺乏一个广泛比较不同域适应方法的统一平台,这将有助于避免为特定的医学数据分析重复进行人工实现。
在医学数据分析中,一个很重要的问题是如何快速便捷地使用域适应算法。由于医学数据的隐私等特性,真实情景下的数据较难获得和使用。因此,人工合成数据能很好地模拟“域偏移”的现象,从而提高算法开发的效率。
另外,现在的域适应算法较为复杂,对已有的算法进行训练和调试的时间消耗大十分不便,尤其对于那些没有很高的项目技术的研究人员。因此,快速便捷的域适应方法和实时可视化的性能检查有利于医学数据分析。
3 研究目的
基于以上背景,本文作者开发了一个基于Matlab的工具箱——DomainATM,以实现以下功能:
◆为医学数据分析模拟、评估和开发不同域适应算法的平台,辅助研究人员快速高效地利用主流的域适应算法。
◆根据用户的设定,快速生成合成数据从而对真实数据进行模仿。
◆包含特征级别和图像级别两大类域适应算法。
◆用户可以便捷地在工具箱中添加自己的域适应算法。
4 工具箱介绍
4.1 总览
图2:DomainATM工作流程图解。DomainATM由三个主要部分组成:1)数据模块加载或创建数据集;2)算法模块进行特征级或图像级的域适应并保存结果;3)评估模块根据具体的指标对适应性能进行评估。
该工具箱由三个模块组成:
1.数据模块负责加载和生成数据集。
◆直接加载现有的医疗数据集(.mat数据文件)。
◆创建具有用户定义的统计属性的合成数据集,用于模拟域偏移。
◆数据集的格式为M×N矩阵,其中M表示样本数,N表示特征维度。
2.算法