基础知识
- 机器学习概述
- 监督学习、半监督学习、无监督学习和强化学习;
- 集中式学习、分布式学习和联邦学习;
- 机器学习隐私
- 训练数据隐私:指机器学习中用户数据的个人身份信息(标识符:唯一标志个人身份;准标识符:辅助标志个人身份)和敏感信息(各种信息内容);
- 模型隐私:指机器学习中模型训练算法、模型拓扑结构、模型权重参数、激活函数以及超参数等与机器学习模型有关的隐私信息;
- 预测结果隐私:指机器学习中模型对用户的预测输入请求反馈回来的、用户不愿意公开的敏感信息;
- 机器学习中的攻击敌手
- 模型逆向攻击是指攻击者从模型预测结果中提取和训练数据有关的信息;
- 模型提取攻击是指攻击者获得对某个目标模型的黑盒访问权后,取得模型内部的参数或结构,或是试图构造出一个与目标模型近似甚至完全等价的机器学习模型;
- 成员推断攻击是指攻击者通过访问模型预测 API,从预测结果中获知某个特征数据是否包含在模型的训练集中;
- 机器学习隐私保护场景
- 集中式学习:中心服务器完成训练数据收集、机器学习模型训练、模型发布和模型预测等整个机器学习流程,各个阶段均存在隐私问题和技术挑战。
- 联邦学习:模型训练阶段。
基于差分隐私的机器学习隐私保护机制
- 机器学习模型的目标函数一般是凸函数,因此采用梯度下降方法确定全局最优解,使得经验(或结构)风险最小化;然而,这个损失函数不满足差分隐私,因为最优模型往往与决策边界附近的训练样本密切相关,若注入噪声后导致这些样本训练错误,则会导致模型无法收敛或者收敛方向错误,并且,这种情况会导致差分隐私定义的比值趋近无穷大,则意味着这些训练样本可以很容易被推测出来。
- 深度学习模型一般是非凸的,而且模型复杂,迭代次数多,使其满足差分隐私约束更加困难。
- 因为保证严格意义的差分隐私(ε-DP)会导致巨额开销,因此引入宽松差分隐私(ε,δ-DP),并以此相继提出KL散度差分隐私、集中差分隐私、零式集中差分隐私、雷尼差分隐私;
- 为了控制深度模型训练阶段的全局隐私损失,引入“隐私会计”概念,用于控制和引导;
- 宽松差分隐私虽然可以降低隐私预算,但也增大了隐私泄露的可能性;研究证明,差分隐私仅能提供单点的隐私保护,若数据记录之间存在关联,敌手可以利用这种关联推测差分隐私算法。
总结:本地化差分隐私可以避免服务器和敌手直接获得用户原始数据;差分隐私注入白噪声的计算开销较低,但模型复杂非凸,会损害模型精度,此外,如果每轮迭代都要求参数更新满足差分隐私保证,则会导致全局隐私预算开销很大,如何权衡隐私效率和模型可用性是重点。
基于同态加密的机器学习隐私保护机制
- 无需多项式近似:①用户和服务器协作,用户执行非线性运算(激活、归一化等),服务器执行线性运算(加法和乘法);②用户完全外包给两个不共谋的服务器,结合同态加密和秘密共享,采用混淆电路实现ReLU激活函数,利用数据封装和单指令多数据SIMD增加并行化;
- 需要多项式近似:低阶多项式逼近非线性函数,再采用同态加密执行加法和乘法计算;泰勒多项式、切尔雪夫多项式等。
基于安全多方计算的机器学习隐私保护机制
SMC 基础密码协议包括 OT 协议(oblivious transfer protocol,简称 OT)、GC(garbled circuits)协议、SS(secret sharing)协议、GMW(Goldreich-Micali-Wigderson)协议。
- 分布式学习框架
- 横向分割数据、权值平均问题;
- 纵向分割数据、安全交集问题;
- 2PC 架构(数据提供者和计算服务器)
针对不同的应用场景、不同的目标任务、不同深度的网络模型、不同类型的非线性函数,如何设计隐私保护推理框架和隐私保护训练框架。
总结与展望
- 研究训练阶段基于密文的高效机器学习隐私保护方法
- 设计适用于机器学习各个阶段的通用隐私保护体系结构
- 提出针对半结构化、非结构化数据隐私保护的切实可行的解决方案
- 实现隐私性、高效性和可用性之间的最佳平衡
- 建立统一的隐私泄露度量标准
- 无监督学习、强化学习的隐私保护方案
- 支持单点和全局的隐私保护(差分隐私中存在此类问题)
- 开放机器学习的隐私保护框架(PySyft:联邦学习方式下训练深度学习模型的隐私保护框架,集成 了安全多方计算和差分隐私机制)