【论文导读】Federated learning for mobile keyboard prediction

Federated learning for mobile keyboard prediction(2018年,Google)

在这里插入图片描述

ABSTRACT

在联邦学习框架上训练了一个递归神经网络语言模型,用于智能手机的下一个单词预测。对基于服务器训练的随机梯度下降算法和基于联邦学习的FedAvg算法进行比较。联邦学习算法实现更好的预测召回和更高的质量。这篇文章证明了联邦学习的可行性和优势,使用户在将其敏感数据保存在本地的情况下进行客户端联合训练。

INTRODUCTION

第一段介绍Gboard,即谷歌键盘,用户量,功能等(没有什么好介绍的)
第二段介绍下一个单词预测,next-word predictions:基于少量用户生成的先前文本,语言模型可以预测最可能的下一个单词或短语。比如输入“I love you”,模型可能提示 “and”, “too”, or “so much”等输入。
在这里插入图片描述
接着介绍以前的相关工作,预测是用单词n-gram有限状态传感器 (FST) 生成的(主要介绍联邦学习相关,其他不深入写)。接着介绍移动键盘的几个限制,由于在移动设备上运行,模型必须很小、响应速度很快、CPU消耗低。
接着介绍神经网络,在NLP中最常用的是RNN模型,RNN利用了任意且动态大小的上下文窗口。可以使用长短期记忆 (LSTM) 解决通过时间反向传播算法中的爆炸和消失梯度。
传统的训练方式,需要一个用户代表(服务器)掌控一个大的数据样本,可以使用公开的数据样本进行训练模型,也可以从用户数据中进行采样,但是这似乎有些冒犯用户隐私。
本文证明了使用FL来代替基于server的训练方式的可行性,并实现了对召回率的改进。

RELATED WORK

相关研究部分简单介绍了一下FSTs、LSTM、RNN,和由于隐私限制而得到发展的分布式训练方法联邦学习。

MODEL ARCHITECTURE

下一个单词预测模型使用长短期记忆 (LSTM) 递归神经网络的一种变体,称为耦合输入和遗忘门 (CIFG)。与门控循环单元一样,CIFG使用单个门来控制输入和循环单元自连接,从而将每个单元的参数数量减少了25%。对于时间步长t,输入门it和忘记门ft具有以下关系: ft = 1 − it
CIFG架构对于移动设备环境是有利的,因为减少了计算的数量和参数集的大小,而不会影响模型性能。
绑定输入嵌入和输出映射矩阵可以用于减小模型大小并加速训练。给定大小为V的词汇表,通过d = Wv 将one-hot编码v ∈ RV映射到具有嵌入矩阵W ∈ RD× V的密集嵌入向量d ∈ RD。CIFG的输出映射 (也在RD中) 映射到输出向量WTh ∈ RV。输出向量上的softmax函数将原始日志转换为归一化概率。输出和目标标签上的交叉损失用于训练。
第1节中提到的客户端设备要求限制了词汇量和模型大小。输入和输出词汇表使用V = 10,000个单词的字典。输入令牌包括特殊的句子开头,句子结尾和词汇外令牌。在网络评估和推断期间,与这些特殊令牌相对应的logit将被忽略。输入嵌入和CIFG输出投影尺寸D设置为96。使用具有670单元的单层CIFG。总体而言,140万参数包括网络,其中多于3分之2与嵌入矩阵w相关联。在权重量化之后,运送到Gboard设备的模型的尺寸为1.4兆字节。
(因为自己不是做NLP方向的,所以这一节理解的很不好,就直接照着翻译了一下)

FEDERATED LEARNING

FL是一种分布式训练网络模型的方式,在FL框架中,用户(移动设备)不是将本地数据上传到服务器进行集中式训练,而是利用共享模型在本地数据上进行训练,然后将新模型发送给服务器。服务器将收到的大量模型进行聚合更新模型。服务器可以使用FederatedAveraging算法来进行聚合,每个客户端可以使用SGD随机梯度下降进行计算:在这里插入图片描述
服务器进行权重聚合:
在这里插入图片描述
联邦学习将数据保存在本地,提高了数据的安全性和隐私性(但是目前很多研究表明FL本身并不足以保证隐私安全),此外客户端更新永远不会存储在服务器上; 更新会在内存中处理,并在权重向量中累积后立即丢弃。遵循数据最小化原则,上传的内容仅限于模型权重。
在这里插入图片描述
(这个图在Google blog上,算是比较经典的图例)
A:客户端使用共享模型在本地数据上计算更新
B:服务器将受到的所有更新进行聚合得到一个新的模型
C:将新模型发送给各个参与训练客户
不断重复此过程

EXPERIMENTS

基于服务器的日志数据训练

在这里插入图片描述

带有客户端缓存的联邦学习训练

在这里插入图片描述

对比

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

这篇文章没有仔细看,我觉得仅仅了解一下即可过去,有几个原因吧,
1、文章时间比较远,18年出的一篇文章,而且是结合应用来谈,学术性稍微弱一些
2、文章主要介绍FL的应用可行性,从目前来看,FL有很大的应用前景,这篇仅仅是FL的一个开端,目前很多工作集中在改进的FL上,隐私方法,通信效率方面,NonIID数据方面等
3、对于我来说,目前主要做隐私这一块,对NLP语言模型了解比较少,所以对我的帮助不大

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值