[论文精读]Hybrid federated learning with brain-region attention network for multi-center Alzheimer‘s

论文全名:Hybrid federated learning with brain-region attention network for multi-center Alzheimer's disease detection

论文网址:Hybrid federated learning with brain-region attention network for multi-center Alzheimer's disease detection - ScienceDirect

英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用

目录

1. 省流版

1.1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Related work

2.3.1. Attention network for dementia

2.3.2. Self-supervised semi-supervised learning

2.3.3. Semi-supervised federated learning

2.4. Method

2.4.1. Data preprocessing

2.4.2. Brain-region attention network

2.4.3. Basic framework of HFL

2.4.4. Loss and algorithm

2.5. Experiments

2.5.1. Data

2.5.2. Experiment setting

2.5.3. Implementation detail

2.5.4. Compared methods

2.5.5. Result

2.6. Discussions

2.6.1. Influence of the self-supervised learning loss

2.6.2. Studies of training and aggregation

2.6.3. Visualization of the attention map

2.6.4. The important brain regions

2.6.5. Limitations and future work

2.7. Conclusion

3. 知识补充

3.1. Epoch in federated learning

3.2. Total federated round

3.3. Time-intensive

4. Reference


1. 省流版

1.1. 心得

(1)也不算什么突破天际的创新点,可能只是以前大家没有酱紫用

(2)代码给了链接但是还没公开,可能是刚发表,得蹲一手

(3)五个数据集九个任务,打扰了。你们做实验都不要命的吗

(4)在爱思唯尔看倒没什么感觉,打开Pdf看实验图片都好漂亮啊~五彩斑斓的~

2. 论文逐段精读

2.1. Abstract

        ①They proposed a hybrid FL (HFL) framework to train unlabeled data and ensure the privacy

        ②They got 85.69 %, 63.34 %, and 69.89 % accuracy on AD vs. NC, MCI vs. NC, and AD vs. MCI

2.2. Introduction

        ①They apply sMRI to detect the structural change of brain

        ②4 types of multi-center research:

2.3. Related work

2.3.1. Attention network for dementia

        ①Introducing attention methods (deep learning) for AD diagnosis

2.3.2. Self-supervised semi-supervised learning

(1)Self-supervised Learning

(2)Self-supervised Semi-supervised Learning

2.3.3. Semi-supervised federated learning

        ①Listing some semi-supervised methods

2.4. Method

2.4.1. Data preprocessing

        ①Modality of data: sMRI

        ②Preprocessing steps: anterior commissure (AC)–posterior commissure (PC) correction, extracting the gray matter (GM) images, bias-corrected and segmented, alignment, and modulation

        ③Brain atlas: AAL 90

        ④Crop: from 121*145*121 to 100*120*100

2.4.2. Brain-region attention network

        ①Workflow of BANet:

where retain the first 3 steps of ResNet (crop the 4th) with stride is 2

2.4.3. Basic framework of HFL

        ①Difference between traditional FL and HFL:

where the global model \theta is aggregated by supervised local model \theta_s and unsupervised local model \theta_u with respective weight \widehat{w}_{s} and \widehat{w}_{u}:

\boldsymbol{\theta}=\sum_{i=0}^m(\widehat{w}_{s_i}\cdot\boldsymbol{\theta}_{s_i})+\sum_{i=0}^n(\widehat{w}_{u_i}\cdot\boldsymbol{\theta}_{u_i})

but they rewrite the model from FedAvg to:

\boldsymbol{\theta}=\lambda\cdot\sum\limits_{i=0}^m\left(\widehat{w}_{s_i}\cdot\boldsymbol{\theta}_{s_i}\right)+\left(1-\lambda\right)\cdot\sum\limits_{i=0}^n\left(\widehat{w}_{u_i}\cdot\boldsymbol{\theta}_{u_i}\right)

2.4.4. Loss and algorithm

        ①Each center solely employ their own local loss function

        ②The unsupervised loss:

L_u= CW\cdot\left(L^{con}+\beta\cdot L_u^{self}\right)

where it consisted by consistency loss:

L^{con}=\frac{1}{N_{u}}\sum_{i=0}^{N_{u}}\| F\left(x_{i}\right), F\left(H(x_{i})\right)||_{2}^{2}

and self-supervised loss:

L_u^{self}=\frac{1}{N_u}\sum_{i=0}^{N_u}\left\| F^{\prime}\left(\boldsymbol{x}_i\right), \boldsymbol{v}_i\right\|_2^2

with confidence weight CW = cons \cdot sigm oid \_ramp up (\cdot) and \beta is the factor of L_u^{self} (这个factor会不会有点模糊?什么factor(后面实验中给了数值))

        ③Loss for suervised center:

{\mathcal{L}}_{s}= {\mathcal{L}}^{CE}+\alpha\cdot{\mathcal{L}}_{s}^{self}

(右边那个项是怎么计算的??)

atrophy  n.萎缩  vi.萎缩;衰退

        ④Pseudo code of HFL:

2.5. Experiments

2.5.1. Data

        ①Demographic information of 5 datasets:

2.5.2. Experiment setting

        ①Training set: 80% in ADNI-1, ADNI-2, ADNI-3, AIBL

        ②Testing set: 20% in ADNI-1, ADNI-2, ADNI-3, AIBL

        ③Another testing dataset: MCAD (only for test and evaluate the generalization of the model)

        ④Tasks:

2.5.3. Implementation detail

        ①Total federated round: 50

        ②Local training epoch: 1(?????

        ③Beginning training round of supervised/unsupervised center: 1/10

        ④Perturbation: Gaussian noise H\left ( \cdot \right )

        ⑤Supervised factor \alpha=0.1,\beta=0.1

        ⑥Confidence threshold: \tau=0.7

        ⑦Optimizer: Adam

        ⑧Momentum: 0.9 and 0.99

        ⑨Batch size: 10

        ⑩Learning rate: \eta_{s}=10^{-4} and \eta_{u}=10^{-5}

        ⑪Aggregation factor: \lambda=0.5

2.5.4. Compared methods

        ①List compared models and introduce them

2.5.5. Result

(1)Effectiveness of the backbone BANet

        ①Comparison table:

        ②ROC curves:

        ③Precision-Recall curves:

        ④DET curves:

(2)Comparison with state-of-the-art S2FL methods

        ①Comparison table with different tasks on AD VS. NC:

        ②Comparison table with different tasks on MCI VS. NC:

        ③Comparison table with different tasks on AD VS. MCI:

2.6. Discussions

2.6.1. Influence of the self-supervised learning loss

        ①Ablation test of parameters \alpha and \beta(不过这里作者还是解释了一下\alpha表示受监督的作用,\beta表示无监督中心的作用):

2.6.2. Studies of training and aggregation

        ①Ablation study of \eta_{u} and \lambda on different datasets:

2.6.3. Visualization of the attention map

        ①Heatmap obtained by attention mechanism:

2.6.4. The important brain regions

        ①Visualized brain ROI graph:

        ②Strong 5 connections in the top 10 regions:

2.6.5. Limitations and future work

        ①Limited modality: sMRI only

        ②Time intensive and information loss of preprocessing

impute  v.归咎(于);归因(于);归罪(于)

pertinent  adj.直接相关的,有关的;恰当的;相宜的

2.7. Conclusion

        Their novel model bring hopeful result

3. 知识补充

3.1. Epoch in federated learning

(1)在联邦学习中,数据是分散在各个客户端的,且往往具有非独立同分布(Non-IID)的特性。每个客户端的数据量可能有限,因此在单个客户端上进行多轮(如50~100轮)训练可能不是最佳选择。此外,为了保护用户隐私,减少数据传输次数也是重要的考虑因素。因此,在某些情况下,选择较小的epoch数(如1)可以在保护隐私的同时,有效利用有限的数据进行训练。虽然增加epoch数通常可以提高模型的训练效果,但在联邦学习环境下,由于数据分散和隐私保护的需求,模型的收敛速度可能受到影响。因此,在实际应用中,可能需要通过调整学习率、批量大小等超参数来优化模型的收敛过程,而不是简单地增加epoch数。在联邦学习中,每次训练迭代都需要在客户端和服务器之间进行通信。如果epoch数过多,将导致通信成本显著增加,并可能占用过多的计算资源。因此,在资源有限的情况下,选择较小的epoch数是一种合理的折衷方案。

3.2. Total federated round

(1)

Total federated round(总联邦轮次)指的是在整个联邦学习过程中,所有客户端参与训练的总轮次数。这个参数与单个客户端的epoch数不同,它衡量的是整个联邦学习系统在不同客户端之间迭代训练的次数。通过设置适当的总联邦轮次数,可以确保模型在多个客户端的数据上得到充分训练,同时平衡隐私保护、计算资源和通信成本等因素。

综上所述,在联邦学习中,epoch数和total federated round的设置需要根据具体的应用场景和需求进行调整。选择较小的epoch数(如1)和适当的总联邦轮次数(如50)可以在保护隐私的同时,实现有效的模型训练。当然,这并不意味着在所有情况下都应该采用这样的设置,而是需要根据实际情况进行灵活调整。

3.3. Time-intensive

Time-intensive 这个术语用于描述那些需要较长时间来完成的任务或过程。在数据处理、计算科学、软件开发、工程设计、科学研究等多个领域,都存在时间密集型的任务。这些任务通常因为以下原因而耗时较长:

(1)复杂的算法:执行复杂算法的任务往往需要更多的计算步骤,从而增加了处理时间。在MRI(磁共振成像)的预处理中,如灰质图像分割和与标准化空间的对齐,就涉及了复杂的图像处理算法。

(2)大数据量:处理大量数据也会显著增加任务所需的时间。在MRI领域,高分辨率的扫描会产生大量的图像数据,这些数据的处理需要消耗大量的计算资源。

(3)迭代过程:许多算法需要多次迭代才能收敛到最优解或满足一定的精度要求。在优化问题、机器学习模型的训练等场景中,迭代过程往往非常耗时。

(4)外部因素:任务执行的时间还可能受到外部因素的影响,如硬件性能(CPU速度、内存大小、磁盘I/O速度等)、系统负载、网络延迟等。

为了处理时间密集型的任务,可以采取以下策略:

(1)优化算法:通过改进算法的效率,减少不必要的计算步骤,从而降低处理时间。

(2)并行处理:利用多核处理器或分布式计算系统,将任务分解为多个子任务并行执行,以缩短总体处理时间。

(3)硬件升级:提升计算硬件的性能,如使用更快的CPU、更大的内存、更快的存储设备等,以提高任务执行的速度。

(4)异步处理:对于非实时性要求的任务,可以采用异步处理的方式,即在任务执行过程中允许用户进行其他操作,而不需要等待任务完成。

在MRI预处理领域,研究人员已经开发了许多高效的算法和工具来加速灰质图像分割和标准化空间对齐等时间密集型任务的处理速度,同时也在不断探索新的技术和方法来减少信息丢失并提高处理精度。

4. Reference

Lei, B. et al. (2024) 'Hybrid federated learning with brain-region attention network for multi-center Alzheimer's disease detection', Pattern Recognition, 153. doi: Redirecting

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值