NeurIPS 2022 | 外包训练：无需终端上传源数据，无需联邦学习，也能得到好模型？...-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/129645443

本文提出了外包训练（Outsourcing Training），一种无需上传数据到云端的隐私保护训练方法。通过高效协作开源采样（ECOS），在云端使用开源数据进行训练，解决传统方法中的隐私泄漏和数据不足问题。ECOS包括压缩、过滤和多样化解压三个步骤，确保数据分布相似性、高效性和隐私保护。实验展示了在减少标注成本、模型压缩和客户端自动标注等多个场景下的应用效果，证实了外包训练的有效性和低隐私代价。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 洪骏远

单位 | 密歇根州立大学

研究方向 | 机器学习隐私、联邦学习

论文标题：

Outsourcing Training without Uploading Data via Efficient Collaborative Open-Source Sampling

论文链接：

https://arxiv.org/abs/2210.12575

作者单位：

Arizona State University (1st, 4th), **Sony AI** (2nd, 3rd, 5th，通讯单位)

研究背景

随着边缘计算和深度学习的流行，通过云端模型训练赋能边缘设备的人工智能成为一个趋势。传统的云上训练需要将智能边缘设备的数据上传到云端，并接收已训练好的模型以进行预测，例如人脸识别、物体分类等。工业界已有很多成功的案例，包括亚马逊 SageMaker、微软 Azure、谷歌的 Cloud Machine Learning Engine，百度 AI Cloud 等，为诸如医疗保健、智能摄像头、可穿戴智能设备等应用的智能化提供了必要的算力基础。

然而，当边缘设备上传的是隐私数据时，该解决方案可能会遇到问题。例如，服务器可以通过在上传的数据库中搜索您的个人资料照片来确定谁在使用该服务。机器学习社区已经开展了大量工作，以防止这种信息泄露。例如，在梯度中添加高斯噪声可以在差分隐私的概念下保护样本隐私。

但是，添加噪音会引起训练的大方差，从而导致准确性和隐私之间的必然制衡。同时，边缘设备通常无法收集大型数据集，而隐私保护学习需要更多的数据或学到的特征 [2]。因此，我们的目标是提供一种新的训练方式，以防御此类风险：不需要向训练或模型添加噪声，而是提供足够的数据进行训练。