谷歌Gboard应用的语言模型创新：提升打字体验的隐私保护技术

最新推荐文章于 2024-10-04 00:15:00 发布

新加坡内哥谈技术

最新推荐文章于 2024-10-04 00:15:00 发布

阅读量1.1k

点赞数 20

文章标签：人工智能

本文链接：https://blog.csdn.net/2301_79342058/article/details/138822980

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

谷歌的键盘应用程序Gboard通过使用语言模型（LM）来改善用户的打字体验，提供了下一个词预测、自动更正、智能编写、滑动输入和校对等功能。我们的研究人员优先考虑开发负责任的方法，既能提高Gboard的LM性能，又能维护最高的隐私标准。近年来，我们取得了重大进展，包括向用户提供数据使用披露和配置控制，以及使用联邦学习和差分隐私（DP）来训练Gboard的LM，从而提供可量化且严格的数据匿名度量。

Gboard的LM设计为使用预定义的常用词列表，称为词汇表。LM的性能取决于这个词汇表的质量，而词汇表随时间可能会变化。不属于词汇表的词被称为词外词（OOV）。OOV词出现的原因有几个，例如，某些语言的词汇表在Gboard中仍在开发中，所以OOV词的比例可能较高。在词汇表相对完整的语言中，如美国英语，OOV词通常由于新兴的流行词（如“COVID-19”和“Wordle”）、非典型大小写（如“tuesday”）以及用户偏好的不寻常拼写（如“cooool”）或甚至打字错误而出现。由于用户在键盘上输入的信息性质敏感，OOV发现是一项具有挑战性的任务。

今天，我们很高兴分享几种通过发现新的常用词来提高LM性能的方法，同时保持强大的数据最小化和DP保证。这些研究工作包括与语言学家合作揭示新的OOV词，使用隐私保护的联邦分析和其他DP算法，以及使用受信任执行环境（TEE）。

与语言学家的合作

发现OOV词的一种方法是通过与外部方负责任的合作获取经过审查的词汇表。例如，我们与皇家机构西班牙皇家学院（RAE）合作，该机构的使命是确保西班牙语的稳定性，创建了更精细的西班牙语字典并将其纳入Gboard。这使得对在西班牙打字的用户来说，自动更正更快、词汇推荐更好，从而改善了Gboard体验。许多之前缺失的词包括常见名字、品牌名和地点名；相对技术性的词（如“euribor”、“dopamina”、“tensiómetro”）；以及特定于西班牙说话者的变形（如“cuidáis”、“invitáis”、“tiráis”）。

我们使用之前的训练数据重新训练我们的西班牙语LM，并通过联邦重新训练下游模型，取得了显著的质量改进。OOV词的总比例下降了7.3%。打字词在初始提交后被修改的频率降低，由于使用了更大的词汇表，打字速度也因此得到提升。

隐私保护的联邦分析
另一种改进词汇表的方法是从用户设备中发现频繁的OOV词。这本身是一项具有挑战性的任务，因为用户在其设备上键入的内容性

质敏感。因此，我们需要精心设计机制，在数据收集和处理阶段保护用户的敏感信息。为此，我们采用联邦分析，这是一种数据最小化方法，用于在不共享敏感数据的情况下对分布式数据集执行统计查询，并通过新算法扩展它到开放集领域。这使得我们能够在保护用户贡献通过数据最小化技术（如安全聚合（SecAgg））和数据匿名化技术（如DP）的同时，动态地发现OOV词。

No, it seems like the response was cut off. Here's the continuation and conclusion of the translation:

我们开发的一项技术是SecAggIBLT，它结合了可逆的布隆查找表（IBLT）和SecAgg。IBLT是一种线性数据结构，允许高效地插入、删除和查找键值对。在这里，用户将其OOV词插入到初始化为零的IBLT中，然后通过SecAgg进行聚合。这保证了即使是诚实但好奇的服务器，也只能看到聚合的IBLT（所有设备上的所有OOV词及其频率），而不是单个用户的贡献。这种方法为用户贡献提供了匿名性，并阻止服务器将特定词与单个用户联系起来。在数据处理阶段，中心DP应用于发现的OOV词及其计数，以确保对少数个体来说独特的OOV词永远不会被发布。DP使用参数（ε，δ）来量化隐私保护（数值越小，保护越强）。它提供了一个正式保证，即发布的数据模式在设备之间足够普遍，从而防止个体识别。

在Gboard的使用案例中，由于用户输入可能来自包含敏感信息的大量可能性，例如英语用户可能会输入任意长度的单词或短语，包含来自拉丁字母表的字符、数字列表或其他特殊字符，这些输入可能包含他们的个人信息，如用户名和信用卡号。因为SecAggIBLT能够发现这样独特的词，它依赖于服务器在SecAgg之后正确应用中心DP来确保用户隐私。本身它并不阻止好奇的服务器检查发现的OOV词，可能访问敏感信息。这要求我们开发算法，用更强的数据最小化和DP保证来发现频繁的OOV词。

为此，我们在现有的研究基础上开发了LDP-TrieHH，通过迭代构建字典树（前缀树）数据结构来学习频繁的单词。LDP-TrieHH在数据收集过程中提供了强大的数据最小化和严格的本地DP（LDP）保证。在将LDP-TrieHH算法应用到特定语言时，如在美国和印度尼西亚使用的英语，字典树的每一层都存储与该层深度相对应的一组常见前缀。字典树从根部开始迭代构建，最大长度为15。在每一层，我们收集来自一组用户的反馈，他们只通过在上一层学到的常见前缀后指示一个字符来贡献他们的数据。例如，如果“CO”是算法在前一层学到的一个常见前缀，用户输入单词“COVID-19”，用户将只通过提交对“COV”的投票而不是整个单词“COVID-19”来贡献他们的数据，这减少了从投票过程中泄露的信息量。

我们还通过最小化用户参与（每个用户在最多一个层的投票阶段参与）、限制每个用户可以贡献的投票数量（60天期间平均每天一个单词）、并在用户的投票中添加本地噪音来提供严格的LDP保证（ε=10.0每个单词），从而进一步保护用户投票的隐私。为此，我们使用子集选择机制，它在LDP下提供最优的效用-

隐私权衡。在每一层，我们从大量用户（每层50万）中收集投票，这些投票经过聚合和阈值处理，以过滤掉不常见的前缀。通过这一额外的数据处理步骤，通过聚合分析隐私放大，LDP-TrieHH提供了每个词的中心DP保证（ε=0.315，δ=1e-10），每个用户在60天内最多贡献60个单词（即平均每天一个单词）。为了提高发现词的覆盖率，我们连续运行LDP-TrieHH多次，构建几个具有不同用户集的字典树。在后续运行中，我们要求用户只贡献尚未从前几次运行中学到的OOV词，以更有效地利用每个用户的贡献预算。通过LDP-TrieHH，我们能够发现占英语和印尼语OOV词的16.8%和17.5%。此报告提供了更多细节。

通过TEE扩展到更多语言，实现可验证的隐私
使用LDP-TrieHH方法私下发现OOV词的能力依赖于Gboard活跃的英语和印尼语用户的大量（数百万）数量。然而，对于使用量较小的语言，LDP-TrieHH的准确性将不可避免地较低。为了更好地跨语言扩展，包括使用量较低的语言，Gboard现在正在利用受信任执行环境（TEE）的服务器端处理联邦数据，开始进行验证这种方法的实验，使用合成和真实数据。

TEE是常见处理器的安全扩展，通过嵌入的秘密加密密钥（由硬件制造商签名）来促进工作负载的保密性、完整性和可验证性。我们正在开发的系统，如本白皮书所述，使设备能够验证只能在受TEE保护的过程中解密安全上传的数据，这一过程只发布私有化的聚合数据，且数据不能用于任何其他目的。TEE方法通过DP增强，提供与LDP-TrieHH类似的隐私保护，具有更好的可扩展性，并对类似的隐私威胁具有强大的抵抗力。未来几个月将有更多更新。