联邦学习(电子工业出版社)——读书笔记(7)

第八章 联邦学习与计算机视觉、自然语言处理及推荐系统

联邦学习与计算机视觉

联邦计算机视觉

以资源为中心的深度学习开发模式,一方面确实促进了AI的研究和发展,但另一方面也阻碍了大量小公司对AI技术的使用。由于数据隐私、监管风险、缺乏激励等原因,许多企业并不愿意与其他企业直接共享数据。

联邦目标检测模型的步骤如下:

  1. 各参与公司从服务器下载现有的共享目标检测模型。
  2. 各公司使用本地标记数据对模型进行训练。
  3. 各公司通过安全协议,将训练后的模型参数上传至服务器。
  4. 服务器聚合所有参与方的模型参数,并更新共享目标检测模型。

整个模型训练和部署过程都能以持续的方式执行,因为新的标注数据可用源源不断的加进来。

业内研究进展

由于深度学习目前在计算机视觉中占主导地位,为了应对复杂的图像任务而开发的深度CNN等模型通常是复杂和庞大的。训练大型CNN模型也通常需要相当长的时间。为了加快训练过程,通常使用预训练模型来加速模型的收敛。

然而,预训练机器学习模型与现有的联邦学习场景并不兼容,因为在联邦学习中,本地模型和全局模型是一起学习的。Mikhail等人[287]对这个问题进行了研究,开发了一种概率联邦学习框架。

挑战与展望

联邦学习将模型训练带到了用户端。一方面,这消除了聚合用户私有数据的需要。另一方面,这对通常只有有限算力的用户设备带来了巨大的挑战。

联邦学习最有前途、最具挑战性的应用之一可能是基于分散在各种设备上的异构数据而构建的CV驱动自动驾驶系统。通过将各种设备联合起来,协作地构建共享和定制化的模型,联邦学习可用为自主驾驶系统提供很大助力。这些模型高度信息化,能够做出明智和考虑全面的决策。

联邦学习与自然语言处理

联邦自然语言处理

联邦学习在NLP中的一个典型应用是基于移动设备用户频繁键入的单词来学习词库外(OOV)单词。基于所有移动用户数据而训练得到的OOV模型,能够为每个移动端用户提供丰富多彩的查询建议。服务器应该设立一种分析机制,以监测设备的相关统计数据,例如每轮训练中有多少台设备加入或离开联邦学习过程。

挑战与展望

联邦学习与无监督学习、半监督学习或迁移学习的结合是解决数据稀疏问题的一个很有市场的研究方向。尤其是在NLP领域,大量数据都是未经标注的。如何有效地利用这些数据,目前已是一个有趣而富有挑战性的研究课题。

联邦学习与推荐系统

一个有效的推荐系统包含三个主要功能:

  1. 克服内容过载问题。随着互联网上信息的爆炸式增长,用户不可能浏览所有的内容。推荐系统可用过滤低价值的信息,从而节省用户的时间。
  2. 提供定制化推荐。推荐系统应该帮助用户更好地根据自己的品味找到真正感兴趣的商品。
  3. 合理利用资源。推荐系统应该平衡受欢迎程度和实用性,让人们对这些不那么受欢迎的商品给予更多关注。

在推荐系统中,仍然有许多尚未解决的问题,冷启动和用户数据隐私是其中两个主要问题。

  1. 对于冷启动问题,我们可用从其他参与方借鉴相关信息和知识,以帮助对新商品进行评分或对新用户进行预测。
  2. 对于数据隐私问题,用户的私有数据被保存在客户端设备中,只有更新的模型才会通过安全协议上传。

推荐系统

一般来说,推荐模型可以分为四种:协同过滤、基于内容的推荐系统、基于模型的推荐系统和混合推荐系统。

协同过滤

它通过对用户与商品的历史互动进行建模来实现推荐。也就是说,基于用户-商品,协同过滤会给统一为用户推荐类似的商品,或者给类似的用户推荐同一商品。

基于内容的推荐系统

它对商品的描述和用户的画像进行匹配来进行推荐。其核心思想是,如果一位用户喜欢一件商品,也会喜欢类似的商品。

基于模型的推荐系统

它使用机器学习和深度学习技术,对用户-商品关系进行直接建模。

混合推荐系统

它是指集成两个或多个推荐策略的模型,通常被认为是更有效的。

联邦推荐系统

联邦协同过滤由所有用户共同地学习用户因子矩阵和商品因子矩阵得到,包含以下五个步骤:

  1. 每一个用户从服务器下载全局商品因子矩阵。
  2. 每一个用户聚合显式数据和隐式数据。
  3. 每一个用户使用本地数据和全局商品因子矩阵对本地用户因子向量进行更新。
  4. 每一个用户使用本地数据和本地用户因子向量,计算全局商品因子矩阵的本地更新,并通过一个安全协议将更新上传至服务器。
  5. 服务器通过联邦加权算法聚合从各个客户端上传的本地模型更新。并使用聚合的结果对全局商品因子矩阵进行更新。之后,服务器将全局商品因子矩阵发送给各个用户。

挑战和展望

一个普遍的问题是:建立实用的隐私保护和安全的推荐系统需要什么?我们怎样才能建立这些系统?该问题可以进一步细分为几个具体的方面:如何在保护数据安全和隐私的同时,达到高准确度和低通信成本?我们应该选择哪种安全协议?哪种推荐算法更适用于联邦学习?

这里提出了一些未来可能的研究方向。首先,不完整的数据会在多大程度上影响推荐系统的性能?换句话说,我们需要从用户那里收集多少数据,才能建立一个精准的推荐系统。其次,传统的推荐器会利用用户的社交数据、空时数据等,然而目前还不清楚这些数据中哪一部分更有用。最后,联邦学习框架与传统的推荐系统的设定有很大不同。因此,如何在联邦学习框架下,设计高效并且精确的推荐算法也是一项很有挑战性的研究工作。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

超威橘猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值