©PaperWeekly 原创 · 作者 | 洪骏远
单位 | 密歇根州立大学
研究方向 | 机器学习隐私、联邦学习
论文标题:
Outsourcing Training without Uploading Data via Efficient Collaborative Open-Source Sampling
论文链接:
https://arxiv.org/abs/2210.12575
作者单位:
Arizona State University (1st, 4th), **Sony AI** (2nd, 3rd, 5th,通讯单位)
研究背景
随着边缘计算和深度学习的流行,通过云端模型训练赋能边缘设备的人工智能成为一个趋势。传统的云上训练需要将智能边缘设备的数据上传到云端,并接收已训练好的模型以进行预测,例如人脸识别、物体分类等。工业界已有很多成功的案例,包括亚马逊 SageMaker、微软 Azure、谷歌的 Cloud Machine Learning Engine,百度 AI Cloud 等,为诸如医疗保健、智能摄像头、可穿戴智能设备等应用的智能化提供了必要的算力基础。
然而,当边缘设备上传的是隐私数据时,该解决方案可能会遇到问题。例如,服务器可以通过在上传的数据库中搜索您的个人资料照片来确定谁在使用该服务。机器学习社区已经开展了大量工作,以防止这种信息泄露。例如,在梯度中添加高斯噪声可以在差分隐私的概念下保护样本隐私。
但是,添加噪音会引起训练的大方差,从而导致准确性和隐私之间的必然制衡。同时,边缘设备通常无法收集大型数据集,而隐私保护学习需要更多的数据或学到的特征 [2]。因此,我们的目标是提供一种新的训练方式,以防御此类风险:不需要向训练或模型添加噪声,而是提供足够的数据进行训练。