[论文精读]Hybrid federated learning with brain-region attention network for multi-center Alzheimer‘s

②Preprocessing steps: anterior commissure (AC)–posterior commissure (PC) correction, extracting the gray matter (GM) images, bias-corrected and segmented, alignment, and modulation

③Brain atlas: AAL 90

④Crop: from 121*145*121 to 100*120*100

2.4.2. Brain-region attention network

①Workflow of BANet:

where retain the first 3 steps of ResNet (crop the 4th) with stride is 2

2.4.3. Basic framework of HFL

①Difference between traditional FL and HFL:

where the global model $\theta$ is aggregated by supervised local model $\theta_s$ and unsupervised local model $\theta_u$ with respective weight $\widehat{w}_{s}$ and $\widehat{w}_{u}$ :

$\boldsymbol{\theta}=\sum_{i=0}^m(\widehat{w}_{s_i}\cdot\boldsymbol{\theta}_{s_i})+\sum_{i=0}^n(\widehat{w}_{u_i}\cdot\boldsymbol{\theta}_{u_i})$

but they rewrite the model from FedAvg to:

$\boldsymbol{\theta}=\lambda\cdot\sum\limits_{i=0}^m\left(\widehat{w}_{s_i}\cdot\boldsymbol{\theta}_{s_i}\right)+\left(1-\lambda\right)\cdot\sum\limits_{i=0}^n\left(\widehat{w}_{u_i}\cdot\boldsymbol{\theta}_{u_i}\right)$

2.4.4. Loss and algorithm

①Each center solely employ their own local loss function

②The unsupervised loss:

$L_u= CW\cdot\left(L^{con}+\beta\cdot L_u^{self}\right)$

where it consisted by consistency loss:

$L^{con}=\frac{1}{N_{u}}\sum_{i=0}^{N_{u}}\| F\left(x_{i}\right), F\left(H(x_{i})\right)||_{2}^{2}$

and self-supervised loss:

$L_u^{self}=\frac{1}{N_u}\sum_{i=0}^{N_u}\left\| F^{\prime}\left(\boldsymbol{x}_i\right), \boldsymbol{v}_i\right\|_2^2$

with confidence weight $CW = cons \cdot sigm oid \_ramp up (\cdot)$ and $\beta$ is the factor of $L_u^{self}$ （这个factor会不会有点模糊？什么factor（后面实验中给了数值））

③Loss for suervised center:

${\mathcal{L}}_{s}= {\mathcal{L}}^{CE}+\alpha\cdot{\mathcal{L}}_{s}^{self}$

（右边那个项是怎么计算的？？）

atrophy n.萎缩 vi.萎缩；衰退

④Pseudo code of HFL:

2.5. Experiments

2.5.1. Data

①Demographic information of 5 datasets:

2.5.2. Experiment setting

①Training set: 80% in ADNI-1, ADNI-2, ADNI-3, AIBL

②Testing set: 20% in ADNI-1, ADNI-2, ADNI-3, AIBL

③Another testing dataset: MCAD (only for test and evaluate the generalization of the model)

④Tasks:

2.5.3. Implementation detail

①Total federated round: 50

②Local training epoch: 1（？？？？？）

③Beginning training round of supervised/unsupervised center: 1/10

④Perturbation: Gaussian noise $H\left ( \cdot \right )$

⑤Supervised factor $\alpha=0.1,\beta=0.1$

⑥Confidence threshold: $\tau=0.7$

⑦Optimizer: Adam

⑧Momentum: 0.9 and 0.99

⑨Batch size: 10

⑩Learning rate: $\eta_{s}=10^{-4}$ and $\eta_{u}=10^{-5}$

⑪Aggregation factor: $\lambda=0.5$

2.5.4. Compared methods

①List compared models and introduce them

2.5.5. Result

（1）Effectiveness of the backbone BANet

①Comparison table:

②ROC curves:

③Precision-Recall curves:

④DET curves:

（2）Comparison with state-of-the-art S2FL methods

①Comparison table with different tasks on AD VS. NC:

②Comparison table with different tasks on MCI VS. NC:

③Comparison table with different tasks on AD VS. MCI:

2.6. Discussions

2.6.1. Influence of the self-supervised learning loss

①Ablation test of parameters $\alpha$ and $\beta$ （不过这里作者还是解释了一下 $\alpha$ 表示受监督的作用， $\beta$ 表示无监督中心的作用）:

2.6.2. Studies of training and aggregation

①Ablation study of $\eta_{u}$ and $\lambda$ on different datasets:

2.6.3. Visualization of the attention map

①Heatmap obtained by attention mechanism:

2.6.4. The important brain regions

①Visualized brain ROI graph:

②Strong 5 connections in the top 10 regions:

2.6.5. Limitations and future work

①Limited modality: sMRI only

②Time intensive and information loss of preprocessing

impute v.归咎(于)；归因(于)；归罪(于)

pertinent adj.直接相关的，有关的；恰当的；相宜的

2.7. Conclusion

Their novel model bring hopeful result

3. 知识补充

3.1. Epoch in federated learning

（1）在联邦学习中，数据是分散在各个客户端的，且往往具有非独立同分布（Non-IID）的特性。每个客户端的数据量可能有限，因此在单个客户端上进行多轮（如50~100轮）训练可能不是最佳选择。此外，为了保护用户隐私，减少数据传输次数也是重要的考虑因素。因此，在某些情况下，选择较小的epoch数（如1）可以在保护隐私的同时，有效利用有限的数据进行训练。虽然增加epoch数通常可以提高模型的训练效果，但在联邦学习环境下，由于数据分散和隐私保护的需求，模型的收敛速度可能受到影响。因此，在实际应用中，可能需要通过调整学习率、批量大小等超参数来优化模型的收敛过程，而不是简单地增加epoch数。在联邦学习中，每次训练迭代都需要在客户端和服务器之间进行通信。如果epoch数过多，将导致通信成本显著增加，并可能占用过多的计算资源。因此，在资源有限的情况下，选择较小的epoch数是一种合理的折衷方案。

3.2. Total federated round

（1）

Total federated round（总联邦轮次）指的是在整个联邦学习过程中，所有客户端参与训练的总轮次数。这个参数与单个客户端的epoch数不同，它衡量的是整个联邦学习系统在不同客户端之间迭代训练的次数。通过设置适当的总联邦轮次数，可以确保模型在多个客户端的数据上得到充分训练，同时平衡隐私保护、计算资源和通信成本等因素。

综上所述，在联邦学习中，epoch数和total federated round的设置需要根据具体的应用场景和需求进行调整。选择较小的epoch数（如1）和适当的总联邦轮次数（如50）可以在保护隐私的同时，实现有效的模型训练。当然，这并不意味着在所有情况下都应该采用这样的设置，而是需要根据实际情况进行灵活调整。

3.3. Time-intensive

Time-intensive 这个术语用于描述那些需要较长时间来完成的任务或过程。在数据处理、计算科学、软件开发、工程设计、科学研究等多个领域，都存在时间密集型的任务。这些任务通常因为以下原因而耗时较长：

（1）复杂的算法：执行复杂算法的任务往往需要更多的计算步骤，从而增加了处理时间。在MRI（磁共振成像）的预处理中，如灰质图像分割和与标准化空间的对齐，就涉及了复杂的图像处理算法。

（2）大数据量：处理大量数据也会显著增加任务所需的时间。在MRI领域，高分辨率的扫描会产生大量的图像数据，这些数据的处理需要消耗大量的计算资源。

（3）迭代过程：许多算法需要多次迭代才能收敛到最优解或满足一定的精度要求。在优化问题、机器学习模型的训练等场景中，迭代过程往往非常耗时。

（4）外部因素：任务执行的时间还可能受到外部因素的影响，如硬件性能（CPU速度、内存大小、磁盘I/O速度等）、系统负载、网络延迟等。

为了处理时间密集型的任务，可以采取以下策略：

（1）优化算法：通过改进算法的效率，减少不必要的计算步骤，从而降低处理时间。

（2）并行处理：利用多核处理器或分布式计算系统，将任务分解为多个子任务并行执行，以缩短总体处理时间。

（3）硬件升级：提升计算硬件的性能，如使用更快的CPU、更大的内存、更快的存储设备等，以提高任务执行的速度。

（4）异步处理：对于非实时性要求的任务，可以采用异步处理的方式，即在任务执行过程中允许用户进行其他操作，而不需要等待任务完成。

在MRI预处理领域，研究人员已经开发了许多高效的算法和工具来加速灰质图像分割和标准化空间对齐等时间密集型任务的处理速度，同时也在不断探索新的技术和方法来减少信息丢失并提高处理精度。

4. Reference

Lei, B. et al. (2024) 'Hybrid federated learning with brain-region attention network for multi-center Alzheimer's disease detection', Pattern Recognition, 153. doi: Redirecting