FLMix: 联邦学习新范式——局部和全局的结合

文章链接:Federated Learning of a Mixture of Global and Local Models

发表期刊(会议): ICLR 2021 Conference(机器学习顶会)

本博客从优化函数角度出发,学习传统联邦学习 ◊ \Diamond 和 新型联邦学习 ♣ \clubsuit 的差异

1. 背景介绍

菲利普和彼得两位学者在阿卜杜拉国王科技大学发表的一篇文章中,对于联邦学习(Federated Learning)和混合专家(MoE)的结合进行了早期的数理讨论。

有意思的是这两位学者的研究动机是为了保护自己的移动设备数据不外露的同时,还可以用这些数据进行机器学习。他们给了两个很简单的理由。

  • First, many device users are increasingly sensitive to privacy concerns and prefer their data to never leave their devices.
  • Second,moving data from their place of origin to a centralized location is very inefficient in terms of energy and time.

    一个理由是不安全,还有一个理由是不方便。

2. 传统联邦学习

目前为止,FL 已经成为一个跨学科领域,专注于通过直接在边缘设备上训练机器学习模型来解决问题。传统的FL框架,每个客户参与FL训练。

参数定义:训练客户数量 N;全局模型结构 M G M_{G} MG;全局模型参数 θ ( d 1 ) 维 \theta (d_{1})维 θ(d1)
其中 θ ∈ R d 1 \theta \in \mathbb{R}^{d_{1}} θRd1 and R d 1 ∈ R \mathbb{R}^{d_{1}} \in \mathbb{R} Rd1R
FL的学习目标为:
◊ min ⁡ θ ∈ R d 1 F ( θ ) = 1 N ∑ i = 1 N f i ( θ ) \Diamond \quad \min_{\theta \in \mathbb{R}^{d_{1}}} F(\theta) =\frac{1}{N} \sum_{i=1}^{N} f_{i}(\theta) θRd1minF(θ)=N1i=1Nfi(θ)
对于每一个 f i f_{i} fi,由于数据分布不同,假设第 i i i 个客户的数据分布定义为 D i \mathcal{D} _{i} Di 则:
f i ( θ ) = E ( x , y ) ∼ D i [ f ( x , ξ ) ] f_{i}(\theta)=\mathbb{E}_{(x,y)\sim\mathcal{D}_{i}} [f(x,\xi)] fi(θ)=E(x,y)Di[f(x,ξ)]
其中 f i ( ⋅ ) f_{i}(·) fi()是客户 i i i 的损失函数

求解 F ( θ ) F(\theta) F(θ) 最流行的方法是FedAvg算法,在FedAvg最简单的形式中,即当不使用部分参与、模型压缩或随机近似时,FedAvg缩减为局部梯度下降(LGD)。这是GD在聚合之前对每个设备执行多个梯度步长的扩展。

FedAvg已被证明在经验上是有效的,特别是对于非凸问题(存在多个局部极小值的问题)。但在数据异质时,与非本地对应的算法相比,FedAvg收敛保证较差

FL 虽然已经有了诸多理论证明其可行性,但是它的最终结果是全局性的,我们需要思考,对于那些数据异构的个体而言,使用全局方案解决个体问题效用一定好吗

答案是否定的,数据异构性不仅对设计新的训练方法来解决 ◊ \Diamond 提出了挑战,而且不可避免地对这种全局解决方案对个人用户的效用提出了质疑。事实上,在所有设备的所有数据中训练的全局模型可能会从个人用户体验的典型数据和使用模式中删除,以至于使其几乎无用。


3. FL新范式

本文提出了一种新的训练联邦学习模型的优化公式。标准FL旨在从存储在所有参与设备上的私人数据中找到一个单一的全局模型。相比之下,新方法寻求全局模型和局部模型之间的权衡,每个设备可以从自己的私有数据中学习而无需通信。

本文开发了有效的随机梯度下降(SGD)变体来求解新公式,并证明了通信复杂性的保证。该工作的主要贡献包括结合全局和局部模型的FL新范式新范式的理论性质无环路局部梯度下降(L2GD)L2GD的收敛理论以及对局部步骤在联邦学习中的作用的见解。该文件还强调了本地SGD在通信复杂性和个性化联邦学习的好处方面优于传统SGD的潜力

本文提出的训练监督联邦学习新范式如下:

♣ min ⁡ x 1 , . . . , x n ∈ R d { F ( x ) : = f ( x ) + λ ψ ( x ) } f ( x ) : = 1 n ∑ i = 1 n f i ( x i ) ψ ( x ) : = 1 2 n ∑ i = 1 n ∥ x i − x ‾ ∥ 2 \clubsuit \quad \min_{x_1,...,x_n \in \mathbb{R}^d } \{ F(x): = f(x)+ \lambda \psi (x)\} \\ f(x):=\frac{1}{n}\sum_{i=1}^{n} f_i(x_i) \\ \psi (x) := \frac{1}{2n}\sum_{i=1}^{n} \left \| x_i-\overline{x} \right \| ^2 x1,...,xnRdmin{F(x):=f(x)+λψ(x)}f(x):=n1i=1nfi(xi)ψ(x):=2n1i=1nxix2 其中 λ ≥ 0 \lambda \ge0 λ0 是一个惩罚超参, x 1 , . . . , x n ∈ R d x_1,...,x_n \in \mathbb{R}^d x1,...,xnRd 是本地模型参数 , x : = ( x 1 , x 2 , . . . , x n ) ∈ R n d x:=(x_1,x_2,...,x_n) \in\mathbb{R}^{nd} x:=(x1,x2,...,xn)Rnd 并且 x ‾ : = 1 n ∑ i = 1 n x i \overline{x}:=\frac{1}{n}\sum_{i=1}^{n}x_i x:=n1i=1nxi 是所有本地模型的平均值。

文章假设由 f i f_i fi 得到的 F F F 是一个强凸函数。 凸函数是二阶导始终为正(负)的函数,局部最小值即为全局最小值。对于 ◊ \Diamond 有一个唯一的解。这个解可以表示为:
x ( λ ) : = ( x 1 ( λ ) , . . . , x n ( λ ) ) ∈ R n d x(\lambda ):=(x_1(\lambda),...,x_n(\lambda))\in\mathbb{R}^{nd} x(λ):=(x1(λ),...,xn(λ))Rnd接着可以计算 x ‾ ( λ ) : = 1 n ∑ i = 1 n x i ( λ ) \overline{x}(\lambda):=\frac{1}{n}\sum_{i=1}^{n} x_i(\lambda) x(λ):=n1i=1nxi(λ)


理论逻辑

所提范式 ♣ \clubsuit 的理论逻辑:

  • Local models ( λ = 0 \lambda=0 λ=0) :此时模型退化为局部模型,只需要将本地损失降到最低,即求解 min ⁡ x i ∈ R d f i ( x i ) \min_{x_i \in \mathbb{R}^d } f_i(x_i) xiRdminfi(xi)也就是说, x i ( 0 ) x_i(0) xi(0) 仅基于存储在设备 i i i 上的数据 D i D_i Di 的局部模型。该模型可以由设备 i i i 计算,而无需任何通信。通常情况下, D i D_i Di 不够丰富,无法使用此本地模型。为了学习更好的模型,还必须考虑其他客户的数据。然而,这存在沟通成本。
  • Mixed models ( λ ∈ ( 0 , ∞ ) \lambda\in(0,\infty) λ(0,)):随着 λ \lambda λ 的增加,惩罚 λ ψ ( x ) \lambda \psi (x) λψ(x) 的效果越来越明显,需要沟通以确保模型不会太不相似,否则惩罚 λ ψ ( x ) \lambda \psi (x) λψ(x) 会增大。
  • Global model ( λ = ∞ \lambda=\infty λ=):现在我们来看 λ → ∞ λ→∞ λ 的极限情况。直观上,这种极限情况应该迫使最优局部模型之间是相同的,同时最小化损失 f f f,即让 ψ ( x ) → 0 \psi(x) \rightarrow0 ψ(x)0 ψ ( x ) : = 1 2 n ∑ i = 1 n ∥ x i − x ‾ ∥ 2 \psi (x) := \frac{1}{2n}\sum_{i=1}^{n} \left \| x_i-\overline{x} \right \| ^2 ψ(x):=2n1i=1nxix2此时,这种情况有一个特殊的极限解: min ⁡ { f ( x ) : x 1 , . . . , x n ∈ R d , x 1 = ⋯ = x n } \min\{ f(x):x_1,...,x_n\in \mathbb{R}^d ,x_1=\cdots=x_n \} min{f(x):x1,...,xnRd,x1==xn}。可以反证,如果 λ = ∞ \lambda=\infty λ= 并且 x 1 = x 2 = ⋯ = x n x_1=x_2=\cdots =x_n x1=x2==xn不成立,那么 F ( x ) = ∞ F(x) = \infty F(x)=

重要假设

对于每一个设备 i i i ,它的目标函数 f i : R d → R f_i:\mathbb{R}^d \rightarrow \mathbb{R} fi:RdR L − s m o o t h L-smooth Lsmooth 并且 μ − s t r o n g l y \mu -strongly μstrongly 的凸函数。

  • L − s m o o t h L-smooth Lsmooth:通常用来描述一个函数的平滑程度。一个函数被称为是 L-smooth 的,如果它的一阶导数(梯度)是 Lipschitz 连续的,即梯度的变化受到了一定的约束。
    如果存在一个常数 L > 0 L>0 L>0,使得函数 f f f 的梯度 ∇ f ( x ) ∇f(x) f(x) 对于任意的 x x x y y y 满足以下不等式: ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ≤ L ∥ x − y ∥ ∥∇f(x)−∇f(y)∥≤L∥x−y∥ ∥∇f(x)f(y)Lxy ∥ ⋅ ∥ ∥⋅∥ 是向量的范数。这个定义表明函数的梯度变化受到了 L L L 的限制,也就是说在函数曲面上相邻点处的梯度变化是有界的。
  • μ − s t r o n g l y \mu -strongly μstrongly:描述函数的弯曲程度,指的是一个函数在某种程度上比一个凸函数更加强烈地弯曲。如果存在一个常数 μ > 0 \mu>0 μ>0 ,它满足以下不等式: f ( y ) ≥ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + μ 2 ​∥ y − x ∥ 2 f(y)≥f(x)+⟨∇f(x),y−x⟩+\frac{μ}{2}​∥y−x∥^2 f(y)f(x)+f(x),yx+2μ​∥yx2 ⟨ ⋅ , ⋅ ⟩ ⟨⋅,⋅⟩ , 表示内积运算。这个不等式表明函数 f f f 在任意点 x x x 处的曲率至少为 μ μ μ,即函数图像在局部区域内弯曲程度足够大。

L − s m o o t h L-smooth Lsmooth 函数的特性使得在优化问题中的求解更为可行和稳定。因为具有 Lipschitz 连续梯度的函数对于梯度下降等优化算法而言,更容易收敛到局部最优解,避免了梯度变化剧烈导致的震荡或发散。确保收敛

μ − s t r o n g l y \mu -strongly μstrongly 函数在局部区域内有一个严格的下界,这种特性使得优化算法能够更快速地收敛到全局最优解。加速收敛


解的特性

对于 ♣ \clubsuit 的最优解,它应该具备以下三个特性:

我们将表征局部和全局的两个函数 f ( x ( λ ) ) f(x(\lambda)) f(x(λ)) ψ ( x ( λ ) ) \psi(x(\lambda)) ψ(x(λ)) 视作关于变量 λ \lambda λ 的函数。

  • 特性一 ψ ( x ( λ ) ) \psi(x(\lambda)) ψ(x(λ)) 是非递增的,对于 ∀ λ > 0 \forall\lambda>0 λ>0 ψ ( x ( λ ) ) ≤ f ( x ( ∞ ) ) − f ( x ( 0 ) ) λ ψ(x(λ)) ≤\frac{ f(x(∞))−f(x(0))}{\lambda} ψ(x(λ))λf(x())f(x(0))进一步 f ( x ( λ ) ) f(x(\lambda)) f(x(λ)) 是非递减的,所以 f ( x ( ∞ ) ) ≥ f ( x ( λ ) ) f(x(∞))\ge f(x(\lambda)) f(x())f(x(λ))

    上述式子表明:随着 λ \lambda λ 的增大,惩罚项 ψ ( x ( λ ) ) ψ(x(λ)) ψ(x(λ)) 会逐渐减少到 0 ,因此最优的局部模型 x i ( λ ) x_i(\lambda) xi(λ) 会随着 λ \lambda λ 的增长越来越相似。同时根据第二种表述, f ( x ( λ ) ) f(x(\lambda)) f(x(λ)) λ \lambda λ 增加而增加,但不超过标准FL公式的最优全局损耗 f ( x ( ∞ ) ) f(x(∞)) f(x())
  • 特性二:对于 ∀ λ > 0 \forall\lambda>0 λ>0 and 1 ≤ i ≤ n 1\le i \le n 1in 我们可以得到如下最优局部解表示: x i ( λ ) = x ˉ ( λ ) − 1 λ ∇ f i ( x i ( λ ) ) x_i(λ) = \bar{x}(λ) − \frac{1}{λ}∇f_i(x_i(λ)) xi(λ)=xˉ(λ)λ1fi(xi(λ)) 进一步还有 ∑ i = 1 n ∇ f i ( x i ( λ ) ) = 0 ψ ( x ( λ ) ) = 1 2 λ 2 ∣ ∣ ∇ f ( x ( λ ) ) ∣ ∣ 2 \sum_{i=1}^{n}\nabla f_i(x_i(\lambda))=0 \\ \psi (x(\lambda))=\frac{1}{2\lambda^2}||\nabla f(x(\lambda)) ||^2 i=1nfi(xi(λ))=0ψ(x(λ))=2λ21∣∣∇f(x(λ))2从平均模型中减去局部梯度的倍数,可以得到最优局部模型。在最优状态下,局部梯度的总和总是为零。这对 λ = ∞ λ =∞ λ= 显然是正确的,但这对 ∀ λ > 0 \forallλ > 0 λ>0 都不太明显。
  • 特性三:最优局部模型以 O ( 1 / λ ) O(1/\lambda) O(1/λ) 的速度收敛于传统的FL解。
    P ( z ) : = 1 n ∑ i = 1 n f i ( z ) P(z):=\frac{1}{n} {\textstyle \sum_{i=1}^{n}}f_i(z) P(z):=n1i=1nfi(z) ,此时 x ( ∞ ) x(\infty) x() P P P 的唯一最小值,可以得到: ∣ ∣ ∇ P ( x ˉ ( λ ) ) ∣ ∣ 2 ≤ 2 L 2 λ ( f ( x ( ∞ ) ) − f ( x ( 0 ) ) ) ||∇P(\bar{x}(λ))||^2 ≤\frac{2L^2}{λ}(f(x(∞)) − f(x(0))) ∣∣∇P(xˉ(λ))2λ2L2(f(x())f(x(0)))

在这里插入图片描述 ♣ \clubsuit 的解 x ( λ ) x(λ) x(λ) 到纯局部解 x ( 0 ) x(0) x(0) 和纯整体解 x ( ∞ ) x(∞) x() 的距离是 λ λ λ 的函数。


  • 27
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 随着人工智能的快速发展和应用,中信建投也积极探索如何将人工智能应用到自身的业务中,提高生产力和服务水平。在不断尝试中,中信建投从使用已有的ChatGPT技术向生成式AI技术转型,探索的人工智能范式。 在此前的尝试中,中信建投已经使用了基于ChatGPT的人工智能技术,实现了智能问答和智能客服等功能,为客户提供更加便捷的咨询服务。然而,该技术的应用也有一些限制,比如无法进行复杂的推理和判断,难以应对更复杂的业务情景。 为了应对这些挑战,中信建投开始尝试生成式AI技术的应用,这种技术不仅可以生成简单的问答,还可以进行更加复杂的推理和应用,甚至可以根据客户的需求生成全的文章、报告等。 通过不断尝试和优化,中信建投成功地应用了生成式AI技术,并将其应用到股票、债券、基金等多个业务领域中,大大提高了服务水平和客户满意度。而且,这种技术也为中信建投创造了更多的商业机会和竞争优势,为未来的发展注入了强大动力。 总之,中信建投的探索和成功实践,为我们展示了的人工智能范式,重定义了生产力和服务水平,也为其他企业提供了有益的参考和借鉴。 ### 回答2: 中信建投一直致力于推动科技创和数字化转型,特别是在人工智能领域,中信建投不断探究创型人工智能技术,从"chatgpt"到生成式ai,重定义生产力。 以聊天机器人"chatgpt"为例,中信建投通过构建以自然语言处理为核心技术的机器人,为客户提供更加智能化、自动化的服务体验,全面提升客户满意度。在这个基础上,中信建投把目光转向了生成式人工智能技术。生成式人工智能技术能够自动构建模型、理解任务、生成文本、图片及其他格式内容,可以为用户提供更加智能、个性化的服务。 生成式人工智能技术的应用将重定义生产力,从传统的以人为核心的生产模式转变为以机器为核心的生产方式。中信建投通过生成式人工智能技术,实现了客户需求智能化解决方案,构建了高效率的客户服务体系,实现了"人机合一"的智能化运营体系。 总之,中信建投通过不断创,重定义生产力,为客户提供更高质量、更高效率的服务体验,为人工智能技术的应用探索开辟了的领域。 ### 回答3: 中信建投是中国的一家大型综合性金融机构,在金融科技领域一直处于领先地位。最近,该公司向人工智能技术领域进军,尝试将聊天机器人技术(ChatGPT)升级为生成式AI,以重定义生产力,实现更高效的业务运营和更出色的客户服务。 生成式AI是人工智能技术的一种高度发展形式,它可以根据大量的数据学习生成的内容和解决问题的方法。中信建投将这种技术应用到金融服务领域,希望它能够支持更加智能化和自动化的业务流程,提高核心竞争力。 中信建投的生成式AI通过大数据分析和自然语言处理技术,可以实时处理客户的调查、业务需求等信息,快速准确地生成相应的建议和解决方案。这种的智能化服务将会极大地改善客户体验,加强企业与客户之间的沟通和信任。 中信建投还依托其全球领先的技术实力,结合人工智能技术的创应用,构建了庞大的金融服务网络,拓宽了服务渠道,提高了运营效率,增强了市场竞争力。 综上所述,中信建投的探索和实践,将人工智能技术与金融服务有机结合,充分发挥了技术的优势,提高了业务水平,开创了人工智能范式,同时也注入了的活力和动力,为推动金融行业的发展作出了积极贡献。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

恭仔さん

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值