具有分散块坐标下降的个性化设备上电子健康分析

摘要

在对个人保健和大流行的日益关注的推动下,电子保健的普及正在激增。如今,通过机器学习模型增强医疗诊断在电子健康分析的许多方面都非常有效。然而,在经典的基于云/集中式的电子健康范例中,所有数据将集中存储在服务器上,以方便模型训练,这不可避免地会引起隐私问题和高时延。分散式随机梯度下降(D-SGD)等分布式解决方案被提出,以提供基于个人设备的安全及时的诊断结果。但是,D-SGD等方法存在梯度消失的问题,在训练初期往往进展缓慢,从而影响了训练的有效性和效率。此外,现有的方法容易导致学习模型偏向数据密集的用户,在为少数群体提供电子健康分析时影响公平性。
在本文中,我们提出了一个去中心化块坐标下降(D-BCD)学习框架,可以更好地优化分布在去中心化设备上的基于深度神经网络的模型,用于电子健康分析。块坐标下降(BCD)作为一种无梯度优化方法,与传统的基于梯度的优化方法相比,可以有效地缓解梯度消失的问题,并且在早期收敛速度更快。为了克服用户本地数据的潜在数据稀缺问题,我们提出了基于相似性的模型聚合,允许每个设备上的模型利用来自相似邻居模型的知识,从而实现学习模型的个性化和高准确性。在三个真实世界数据集上的基准测试实验说明了我们提出的DBCD的有效性和实用性,其中额外的模拟研究表明了D-BCD在现实生活电子健康场景中的强大适用性。

I. INTRODUCTION

保健使患者无需前往医疗机构[1]即可获得医疗咨询和服务。在电信技术进步和当前大流行的推动下,许多临床医生在2020年[2]首次开始提供电子卫生服务。除了必要的医疗检查和手术,电子健康的繁荣正在彻底改变人们对看医生的刻板印象。作为一种持续的趋势,使用机器学习(ML)模型对电子健康进行增强,尤其深入神经网络(DNNs)已被证明在广泛的电子健康预测分析中非常有效,例如自动诊断[3]、呼吸系统疾病监测[4]和药物推荐[5]。
在使用ML增强远程医疗的经典范例中,从患者收集的数据(例如,个人信息、医疗记录、健康传感器数据等)需要传输到云端,即一个中央服务器,它为模型训练和推理提供所有的计算资源[6]。在这个基于云的设置中,所有敏感的用户数据都被上传并存储在中央服务器中。因此,这导致了对抗性攻击的高度脆弱性,威胁用户数据的安全性(例如,属性推断攻击[7])和训练过的电子健康模型的可用性(例如,虚假数据注入[8])。最近,电子卫生系统中越来越多的严重隐私泄露事件正在挑战公众对这种完全集中服务的安全性的信心,例如2020年加拿大的电子卫生恶意软件攻击已经影响了数百万用户文件。此外,基于云的系统在网络中断或高吞吐量场景下缺乏足够的响应能力,这在紧急情况或监测致命疾病时可能是毁灭性的。
在使用ML增强远程医疗的经典范例中,从患者收集的数据(例如,个人信息、医疗记录、健康传感器数据等)需要传输到云端,即一个中央服务器,它为模型训练和推理提供所有的计算资源[6]。在这个基于云的设置中,所有敏感的用户数据都被上传并存储在中央服务器中。因此,这导致了对抗性攻击的高度脆弱性,威胁用户数据的安全性(例如,属性推断攻击[7])和训练过的电子健康模型的可用性(例如,虚假数据注入[8])。最近,电子卫生系统中越来越多的严重隐私泄露事件正在挑战公众对这种完全集中服务的安全性的信心,例如2020年加拿大的电子卫生恶意软件攻击已经影响了数百万用户文件。此外,基于云的系统在网络中断或高吞吐量场景下缺乏足够的响应能力,这在紧急情况或监测致命疾病时可能是毁灭性的为此,去中心化电子健康分析是一种备受推崇的范式,其中每个患者都拥有一个本地部署的个性化预测模型(例如,智能手机应用程序),允许所有敏感数据保留在她/他的个人设备上,因为所有分析都可以在设备上执行。这种去中心化也有利于提高服务效率,因为它最大限度地减少了对网络连接的依赖。与此同时,去中心化的设备上电子健康分析为建立准确的预测模型带来了新的挑战,而不需要从多个用户那里收集大量的训练数据集。一个简单的解决方案是在每个用户设备上分别训练个性化模型;然而,由于单个设备[9]上的数据量有限,它很难产生令人满意的预测精度。
联邦学习(FL)[10] -[12]是一种有效的设备模型学习方法。具体来说,每个设备用随机梯度下降(SGD)在其本地数据上训练一个预测模型。然后,所有设备的计算梯度被上传到中央服务器,然后汇总并用于更新所有设备[10]共享的通用模型。然而,FL本质上仍然是一个集中的范式,因为服务器是协调所有参与设备和维护一个系统的全局状态。这与没有中心实体的完全去中心化设置不同,这是许多应用程序(例如物联网和点对点网络)中唯一可用的选项。因此,在FL框架下包含电子健康分析无法免除对基于云的基础设施的需求,并且在处理快速增长的设备集时,它的可伸缩性不足[9]。此外,虽然电子健康分析是高度个性化的服务,但FL本质上迫使所有用户共享一个通用模型,使学习的模型偏向于拥有密集数据的大多数用户组。
为此,我们研究了一个具有挑战性的问题,即允许用户的个人设备在完全分散的电子健康分析中相互协作,从而优化和个性化他们的纯本地模型。在本文中,我们提出了一种完全分散和个性化的电子健康分析的新解决方案。基于块坐标下降(BCD)优化算法[13]建立各设备上预测模型的去中心化和个性化,是本研究问题的核心目标。与SGD相比,BCD是一个无梯度优化器,本质上避免了由于堆叠深层而导致的梯度消失问题[14]。因此,它更适合于模型更新很少的完全去中心化学习环境,正如[15]所指出的,BCD完全支持分布式和并行实现。BCD的基本思想是针对变量[16]的子集(即块)求子问题的精确解,而不是同时求所有变量的解,从而提高计算效率。然而,BCD的收敛分析在每个设备上模型都是强凸[9]的假设下是可行的,DNN模型的目标函数通常是非凸的。尽管最近有通过BCD[17]实现一般dnn全局收敛的方法,但该方法只关注集中设置。此外,它要求每个设备上的数据集遵循类似的分布,从而忽略了电子健康分析的个性化本质。
为了填补这一空白,我们为基于dnn的电子健康模型设计了一个去中心化BCD (D-BCD)框架。具体来说,通过将DNN中的每一层视为BCD中的一个块,我们进一步提出了一种新颖的观点——即每个设备实际上可以包含几个块(即层),而不仅仅是一个块,同时符合BCD范式。因此,整个神经网络中的每个块将在每次迭代中更新一次。此外,我们用分散的多层感知器(mlp)作为骨干DNN模型构建了我们的D-BCD框架,其中每个设备都拥有在其私有数据集上训练的唯一模型。为了最大限度地提高协作模型学习的效率,我们进一步提出了一种创新的、基于相似度的设备间通信协议,允许每个设备上的模型从与它具有高亲和度的邻居学习。我们还研究了D-BCD中的成对通信如何缓解个性化电子健康中常见的冷启动和数据不平衡问题[18]。现实世界健康数据分析的实验结果表明,D-BCD的预测准确性与集中式对等方法相当,同时在去中心化、个性化和显著性方面提供了许多优势更快的收敛。我们总结了本文的主要贡献如下:
•鉴于对基于云/集中式电子健康服务[19],[20]的隐私和健壮性的担忧,我们研究了一种完全分散和个性化的全新电子健康范式。此范例允许每个电子健康用户拥有定制的设备上预测模型,从而在其个人设备上保留其敏感数据,并能够获得即时医疗建议。
•我们提出了一种新的D-BCD框架,以促进在完全去中心化设置下学习个性化深度模型,其中不需要中央实体来协调联合学习过程。在D-BCD中,我们实现了分散的设备上mlp,使用我们开发的基于相似性的协作学习协议以块方式进行优化。
•我们对真实世界的数据集进行了广泛的基准测试实验,这证明了D-BCD框架在解决不同的电子健康分析任务方面的有效性和效率。

II. RELATED WORK

去中心化算法有时被称为八卦算法,因为学习到的知识沿着通信图[21]-[24]指定的边缘传播。它的主要目标是在没有中央协调器的设备网络中训练模型(例如参数服务器[25],[26]),而是只需要设备上的计算和与邻近设备的本地通信(例如交换分区梯度或模型更新)[27]。深入研究了基于SGD算法的分散设备网络优化问题。[28] -[31]开发了确定性(非随机)凸目标函数的优化算法。[32][33]推导出随机设定的概率假设所有节点上的分布都是相等的。还有一些算法没有这种i.i.d.假设,比如[34]-[36]。
与SGD(基于梯度的方法)不同,SGD利用反向传播来计算网络参数[37]的梯度,无梯度方法最近已经适用于DNN训练。具有代表性的算法有BCD[13]、[38]、[39]和乘法器交替方向法[40]。无梯度算法在处理不可微非线性时表现良好,因此,它们可以潜在地避免梯度消失的问题。辅助坐标法是一种设计适合任何特定嵌套体系结构的优化算法的数学手段,使BCD算法能够优化DNN模型[38]。本文采用的辅助坐标法称为三分裂公式,将所有隐层中的权值矩阵和所有激活向量分别拼接成两个独立的块,并与输出层[15]的权值矩阵一起更新。[42] -[44]给出了该方法基于不同激活函数的收敛结果。
虽然[9]和[45]等工作将BCD应用于通过与邻居设备通信来改善本地设备目标相似,采用的损失函数是凸的,验证实验基于naive任务(如线性分类和平均估计)。在实际的远程医疗实践中,我们需要更复杂的非凸DNN模型来处理基于传感器收集的数据的复杂分类任务。因此,我们建议将BCD部署在具有非凸损失函数的分散设置中。同时,[9]和[45]中的通信图没有同时考虑任务相关性和通信成本。

III. METHODOLOGY

在本节中,我们将介绍实现个性化电子健康分析的D-BCD的技术途径。我们首先概述在用户端和设备网络上部署的基线模型。然后,我们通过目标函数的三分裂公式和基于相似性的协作学习提出了我们的分散优化方法。

A. Preliminary

定义1:个性化模型。假设一个电子健康应用涉及A个用户,每个用户设备拥有一个个性化的深度模型 Φ ( ⋅ ) \Phi(\cdot) Φ() 参数化为 Θ a ( a ≤ A ) \Theta_a(a \leq A) Θa(aA). 第 a a a个用户设备还托管 N a N_a Na 本地收集的私有数据实例 { ( x a n , y a n ) } n = 1 N a \left\{\left(\mathbf{x}_{a n}, \mathbf{y}_{a n}\right)\right\}_{n=1}^{N_a} {(xan,yan)}n=1Na, x a n \mathbf{x}_{a n} xan 表示输入特征 y a n \mathbf{y}_{a n} yan 表示相应的标签 。 那么的学习目标是最小化 Φ ( x a n ; Θ a ) \Phi\left(\mathbf{x}_{a n} ; \Theta_a\right) Φ(xan;Θa) y a n \mathbf{y}_{a n} yan的差距 n ≤ N a , a ≤ A n \leq N_a, a \leq A nNa,aA. 我们考虑一个通用情况,其中 Φ ( ⋅ ) \Phi(\cdot) Φ() 是一个n层前馈多层感知器,省略了偏置项
Φ ( x ; Θ ) = σ N ( W N σ L − 1 ( W L − 1 ⋯ W 2 σ 1 ( W 1 x ) ) \Phi(\mathbf{x} ; \Theta)=\sigma_N\left(\mathbf{W}_N \sigma_{L-1}\left(\mathbf{W}_{L-1} \cdots \mathbf{W}_2 \sigma_1\left(\mathbf{W}_1 \mathbf{x}\right)\right)\right. Φ(x;Θ)=σN(WNσL1(WL1W2σ1(W1x))
W \mathbf{W} W.为各层权重矩阵, σ \sigma σ,·为非线性激活函数, and Θ : = { W i } i = 1 L \Theta:=\left\{\mathbf{W}_i\right\}_{i=1}^L Θ:={Wi}i=1L. 输入层和输出层分别被视为第0层和第L层。
定义2:设备网络。用户设备可以在完全分散的设置中相互通信。设 G = ( A , E , C ) \mathcal{G}=(\mathcal{A}, \mathcal{E}, \mathcal{C}) G=(A,E,C)是一个加权图,其中A ={1,···,A}是用户设备的集合(用索引表示), E ∈ A × A E \in \mathcal{A} \times \mathcal{A} EA×A是设备之间的边的集合。 C ∈ R A × A C \in \mathbb{R}^{A \times A} CRA×A是一个非负权矩阵,其中每一项 c i j ∈ C c_{i j} \in C cijC表示边(i, j)∈E的权值,表示设备i和设备j之间的通信成本。如果 . c a b = 0 . c_{a b}=0 .cab=0 if ( a , b ) ∉ E (a, b) \notin E (a,b)/E or a = b a=b a=b。我们用 G a \mathcal{G}_a Ga表示设备a的M个邻居的集合,其中 b ∈ G a b \in \mathcal{G}_a bGa 是到a的通信成本最低的前M个设备。

问题定义:个性化设备上电子健康分析。对于设备网络G中的所有模型,我们的目标是学习使以下目标最小化的最优 Θ ˉ : = { Θ a } a = 1 A \bar{\Theta}:=\left\{\Theta_a\right\}_{a=1}^A Θˉ:={Θa}a=1A:

L = ∑ a = 1 A 1 N a ∑ j = 1 N a ℓ ( Φ ( x a j ; Θ a ) , y a j ) \mathcal{L}=\sum_{a=1}^A \frac{1}{N_a} \sum_{j=1}^{N_a} \ell\left(\Phi\left(\mathbf{x}_{a j} ; \Theta_a\right), \mathbf{y}_{a j}\right) L=a=1ANa1j=1Na(Φ(xaj;Θa),yaj)

B. Block Coordinate Descent with V ariable Splitting

在介绍完全去中心化DBCD的细节之前,我们首先简单介绍了最初在中心化设置[17]中提出的BCD算法。我们从一个简单的情况开始,所有设备都是独立训练的。G中单个设备上模型的经验损失最小化可表示为:
min ⁡ Θ a 1 N a ∑ j = 1 N a ℓ ( Φ ( x j ; Θ a ) , y j ) \min _{\Theta_a} \frac{1}{N_a} \sum_{j=1}^{N_a} \ell\left(\Phi\left(\mathbf{x}_j ; \Theta_a\right), \mathbf{y}_j\right) minΘaNa1j=1Na(Φ(xj;Θa),yj)
由于变量是通过Eq. 1中的深度神经网络架构进行耦合的,因此问题是非凸的,计算上难以处理。在这方面,变量分裂是一个公认的技巧[15],[17],[40],它生成一些辅助变量来解耦原始变量,使问题更易于处理。本质上,Eq. 3中的layer网络结构可以自然地表述为以下两分裂形式:
min ⁡ Θ , V 1 N a ∑ j = 1 N a ℓ ( v L j , y j ) + ∑ i = 1 L r i ( W i ) + ∑ i = 1 L s i ( v i ) ,  s.t.  v i = σ i ( W i v i − 1 ) , i = 1 , … , L , ( 4 ) \begin{aligned} & \min _{\Theta, \mathcal{V}} \frac{1}{N_a} \sum_{j=1}^{N_a} \ell\left(\mathbf{v}_{L j}, \mathbf{y}_j\right)+\sum_{i=1}^L r_i\left(\mathbf{W}_i\right)+\sum_{i=1}^L s_i\left(\mathbf{v}_i\right), \\ & \text { s.t. } \quad \mathbf{v}_i=\sigma_i\left(\mathbf{W}_i \mathbf{v}_{i-1}\right), i=1, \ldots, L, \end{aligned}(4) Θ,VminNa1j=1Na(vLj,yj)+i=1Lri(Wi)+i=1Lsi(vi), s.t. vi=σi(Wivi1),i=1,,L,(4)
其中 V : = { v i } i = 1 L , ( v ) : j \mathcal{V}:=\left\{\mathbf{v}_i\right\}_{i=1}^L,(\mathbf{v})_{: j} V:={vi}i=1L,(v):j v N \mathbf{v}_N vN的第 j j j列, r i r_i ri s i s_i si为非负函数,分别揭示了每一层权重矩阵 W i \mathbf{W}_i Wi 和状态向量 v i \mathbf{v}_i vi的先验。在[17]之后,我们将 r i r_i ri s i s_i si设为L2正则化函数。

然而,在模型目标的双分裂形式的第 i i i个约束条件下(即Eq. 4),非线性 σ i ( ⋅ ) \sigma_i(\cdot) σi()造成的 W i \mathbf{W}_i Wi v i − 1 \mathbf{v}_{i-1} vi1的纠缠会给有效求解[17]带来困难。因此,在BCD中引入了另一组辅助变量 U : = { u i } i = 1 L \mathcal{U}:=\left\{\mathbf{u}_i\right\}_{i=1}^L U:={ui}i=1L,其中 u i = W i v i − 1 \mathbf{u}_i=\mathbf{W}_i \mathbf{v}_{i-1} ui=Wivi1,即非线性激活前的状态向量。公式4的修正形式称为三分式[40]。
简单地说,独立设备的BCD方法是一个向后循环的变量更新过程。具体来说,变量从输出层(即第l层)更新到输入层(即第0层)。在每一层i中,Wi、ui和vi三个块中的每一个都将周期性地更新,同时每次修复另外两个块。

C. Multi-Device Block Coordinate Descent

我们在此将普通BCD方法扩展到分散环境,其中多个设备上模型在分布式电子健康数据上进行异步训练。设 Z ‾ : = \overline{\mathcal{Z}}:= Z:= { ( x a j , y a j ) } j = 1 , a = 1 N a , A \left\{\left(\mathbf{x}_{a j}, \mathbf{y}_{a j}\right)\right\}_{j=1, a=1}^{N_a, A} {(xaj,yaj)}j=1,a=1Na,A是整个设备网络上所有训练样本的集合。那么,所有模型参数的三分裂公式 Θ ˉ \bar{\Theta} Θˉw.r.t. Eq. 2可以写成:

L 0 ( Θ ˉ , V ‾ ) : = ∑ a = 1 A L N a ( { ( x a n , y a n ) } n = 1 N a ) + ∑ a = 1 A ∑ i = 1 L r i ( W a i ) + ∑ a = 1 A ∑ i = 1 L s i ( v a i ) ,  s.t.  u a i = W a i v a ( i − 1 ) , v a i = σ i ( u a i ) , i = 1 , … , L , \begin{aligned} & \mathcal{L}_0(\bar{\Theta}, \overline{\mathcal{V}}):=\sum_{a=1}^A \mathcal{L}_{N_a}\left(\left\{\left(\mathbf{x}_{a n}, \mathbf{y}_{a n}\right)\right\}_{n=1}^{N_a}\right)+\sum_{a=1}^A \sum_{i=1}^L r_i\left(\mathbf{W}_{a i}\right) \\ & +\sum_{a=1}^A \sum_{i=1}^L s_i\left(\mathbf{v}_{a i}\right), \\ & \text { s.t. } \mathbf{u}_{a i}=\mathbf{W}_{a i} \mathbf{v}_{a(i-1)}, \mathbf{v}_{a i}=\sigma_i\left(\mathbf{u}_{a i}\right), i=1, \ldots, L, \end{aligned} L0(Θˉ,V):=a=1ALNa({(xan,yan)}n=1Na)+a=1Ai=1Lri(Wai)+a=1Ai=1Lsi(vai), s.t. uai=Waiva(i1),vai=σi(uai),i=1,,L,
where L N a ( { ( x a n , y a n ) } n = 1 N a ) : = 1 N a ∑ j = 1 N a ℓ ( v a L j , y a j ) \mathcal{L}_{N_a}\left(\left\{\left(\mathbf{x}_{a n}, \mathbf{y}_{a n}\right)\right\}_{n=1}^{N_a}\right):=\frac{1}{N_a} \sum_{j=1}^{N_a} \ell\left(\mathbf{v}_{a L j}, \mathbf{y}_{a j}\right) LNa({(xan,yan)}n=1Na):=Na1j=1Na(vaLj,yaj), V ‾ : = { v a i } i = 1 , a = 1 L , A \overline{\mathcal{V}}:=\left\{\mathbf{v}_{a i}\right\}_{i=1, a=1}^{L, A} V:={vai}i=1,a=1L,A and U ‾ : = { u a i } i = 1 , a = 1 L , a \overline{\mathcal{U}}:=\left\{\mathbf{u}_{a i}\right\}_{i=1, a=1}^{L, a} U:={uai}i=1,a=1L,a. 我们处理以下替代无约束问题来求解式(5)
min ⁡ Θ ˉ , V ‾ , U ‾ L ( Θ ˉ , V ‾ , U ‾ ) : = L 0 ( Θ ˉ , V ‾ ) + ∑ a = 1 A ∑ i = 1 L ( γ 2 ∥ v a i − σ i ( u a i ) ∥ P 2 + α 2 ∥ u a i − W a i v a ( i − 1 ) ∥ F 2 ) \begin{aligned} & \min _{\bar{\Theta}, \overline{\mathcal{V}}, \overline{\mathcal{U}}} \mathcal{L}(\bar{\Theta}, \overline{\mathcal{V}}, \overline{\mathcal{U}}):=\mathcal{L}_0(\bar{\Theta}, \overline{\mathcal{V}})+\sum_{a=1}^A \sum_{i=1}^L\left(\frac{\gamma}{2}\left\|\mathbf{v}_{a i}-\sigma_i\left(\mathbf{u}_{a i}\right)\right\|_P^2\right. \\ & \left.+\frac{\alpha}{2}\left\|\mathbf{u}_{a i}-\mathbf{W}_{a i} \mathbf{v}_{a(i-1)}\right\|_F^2\right) \end{aligned} Θˉ,V,UminL(Θˉ,V,U):=L0(Θˉ,V)+a=1Ai=1L(2γvaiσi(uai)P2+2α uaiWaiva(i1) F2)
其中 γ , α > 0 \gamma, \alpha>0 γ,α>0是两个超参数。与集中式BCD相比,D-BCD的关键区别在于,D-BCD中的模型是个性化的,而不是针对每个电子健康服务用户的统一模型,为实现跨网络的不同数据分布提供了更大的灵活性。在接下来的小节中,我们将详细介绍如何设计D-BCD来优化式(6)。

D. Similarity-based Collaborative Learning

然而,在电子医疗服务用户能够享受个性化服务的好处之前,需要克服一个重要的障碍。具体来说,完全去中心化的范例导致了这样一个事实:每个设备上的模型都严重依赖于关于用户的本地数据,以促进个性化。考虑到每个设备上的数据量有限,结果个性化模型的性能将是次优的。与集中式学习模式不同,中央服务器可以利用来自所有参与设备的知识(例如,在FL中上传梯度)来学习一个性能良好但非个性化的全局模型,由于没有中央服务器,D-BCD不允许这样的资源密集型训练过程。

因此,我们设计了一个基于相似度的设备间通信协议来支持训练。D-BCD没有一个管理所有设备的中央机构,它只允许设备之间进行通信以交换知识。由于实际电子医疗应用中的通信带宽有限,对于每个设备,这种设备间通信仅限于基于第III-A节中预定义的通信成本c的一小部分设备。在此基础上,我们提出以用户相似度介入学习过程。设h(a, b)为设备a与其相邻设备b∈Ga的相似度,设HMa = P b∈Ga h(a, b),则第k次训练迭代基于相似度的模型更新为:
Θ a k ← ( 1 − μ ) Θ a k + μ H a M ∑ b ∈ G a h ( a , b ) Θ b k \Theta_a^k \leftarrow(1-\mu) \Theta_a^k+\frac{\mu}{H_a^M} \sum_{b \in \mathcal{G}_a} h(a, b) \Theta_b^k Θak(1μ)Θak+HaMμbGah(a,b)Θbk
在这里插入图片描述

其中,µ为非负权衡参数,Θkb为相邻模型的参数。由于D-BCD支持异步模型更新,为了简便起见,我们使用Θkb表示每个b∈Ga的最新可能的模型参数。我们基于相似度的模型聚合的基本原理是,具有设备间通信的D-BCD可以提高模型在稀疏数据上的性能。同时,h(·)的选择是通用的,这种协同学习本质上是帮助每个局部模型从相关的邻居模型中吸收更多的知识,从而保证每个个性化模型的性能。此外,所有Θkb (b∈Ga)都被b的邻居的参数所掩盖在共享之前,由于缺少Gb的信息,从而阻碍了来自a的可能的推断攻击。

IV. EXPERIMENT

在本节中,我们将在三个真实数据集上进行实验,以验证D-BCD在不同电子健康分析任务中的有效性。

A. Datasets

我们在实验中使用了三个实验数据集,下面介绍。

首先,我们使用睡眠磁带(SC)数据集[46],其中包含153个通宵多导睡眠记录仪(PSG)记录,并引入睡眠阶段标记来检验所提出的算法。基于脑电图(EEG)的睡眠阶段分类对糖尿病、记忆减退、日间过度嗜睡[47]等疾病的诊断至关重要。

我们将每个30秒的双通道(PFz-Cz和Pz-Oz) 100Hz EEG信号级联在SC中生成模型输入。SC还提供了Rechtschaffen和Kales (R&K)睡眠阶段[48]注释,这些注释分别映射为三个独立的标签,分别表示清醒、非快速眼动睡眠(NREM)和快速眼动睡眠(REM)。我们使用60%、20%和20%的比例来划分训练集、验证集和测试集。

其次,我们训练所提出的方法来检测阻塞性睡眠呼吸暂停(OSA),一种常见的与睡眠相关的呼吸障碍[4],[49]。PhysioNet呼吸暂停-ECG数据集[50]收集了70个来自不同患者的夜间心电图记录和呼吸暂停事件标签。我们按照算法[51]将心电信号转换为脉冲信号,我们用60维向量表示每分钟的RR-interval(两个R-peaks之间的时间间隔)系列,并用二进制标签表示给定患者在这段时间内是否有呼吸暂停事件。生成的数据集称为P-Pulse。

每条记录被视为设备的一个本地数据集,即P-Pulse中的a = 70。我们遵循与SC中使用的相同的分区比率。

除了这两个电子健康数据集,我们还在MNIST[52]数据集上进行了实验,该数据集包含70000个手写数字的图像和标签。我们选择MNIST是因为它是一个广泛使用的数据集,用于对分散的机器学习算法进行基准测试。按照[53]中的设置,MNIST中的样本随机均匀地分布在50个设备上,每个设备包含1400个样本。每个设备的数据分割也遵循与SC和pulse相同的比例。

B. Experimental Setting

如第三节所示,部署在每个设备中的DNN模型只是一个l层前馈网络。为了进一步展示所提出框架的泛化能力,我们指定ri = si = 0, di = d (i = 1,···L−1),'作为交叉熵损失,σ作为所有层的ReLU激活函数。
•C-SGD:中央服务器存储所有数据,并通过SGD算法训练全局模型。
•D-SGD:每个设备都有唯一的模型,并使用SGD优化模型参数。允许设备间通信。
•C-BCD:中央服务器存储所有数据,并通过BCD算法训练全局模型。
•I-BCD:每个设备都有一个唯一的模型,并使用BCD优化模型参数,无需设备间通信。
所有最优超参数通过网格搜索确定。

对于设备网络中的邻居数,在M ={0,5,10,50}中进行搜索。L和d的搜索空间分别为{4,8,16,32,64}和{32,64,128,256}。

权衡因子μ调节在{0.01,0.1,0.5,0.9},γ和α调节在{0.1,0.5,1,5,10}。对于D-SGD算法,批大小为128,学习率为0.05。该模型在具有6个NVIDIA V100 gpu的高性能计算(HPC)系统上进行训练。

一般来说,通信成本c取决于物理限制,比如通过无线方式传输数据时设备之间的距离。对于电子医疗保健场景,模型参数通常通过互联网共享,以减少通信延迟,从而在不同设备之间平衡c。在这种情况下,引入三个随机生成的最大节点度为50的无向加权图来模拟所有设备的通信状况。对于MNIST,我们将任意两个设备之间的相似度定义为1,因为它们服从相同的分布。对于SC和P-Pulse,设备a和b之间的相似度h(a, b)通过:

V. CONCLUSION

在本文中,我们设计并开发了一种新的学习框架,即D-BCD,用于以完全分散和设备上的方式训练个性化的电子健康分析模型。

通过基于相似度的协同学习方案,DBCD能够获得与集中式对等方法相比具有竞争力的性能,同时训练效率更高,且抗梯度消失。D-BCD被设计为一个通用的去中心化电子卫生框架,可用于优化不同任务的广泛预测模型。D-BCD的应用数据集包括图像、推荐、时间序列等领域。此外,D-BCD在两个医学分类任务上的可行性——睡眠阶段评分(SC)和呼吸暂停检测(pulse)——揭示了其推广到其他疾病的潜力。进一步的超参数分析和场景模拟表明,D-BCD可以缓解冷启动问题,并且在通信受限时优于基于sgd的优化框架。这些特性对于设备上部署环境非常重要,显示了D-BCD在电子保健和远程医疗应用中的巨大潜力。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值