读文献--《机器学习隐私保护研究综述》

这篇文章是谭作文教授2020年发表在软件学报上的一篇文章。谭作文是江西财经大学计算机系教授,博士研究生导师。中国科学院数学与系统科学研究院访问学者,瑞典Uppsala大学信息技术系访问教授。研究兴趣是密码学、隐私保护、区块链等。在权威学术期刊和信息安全国际会议上发表论文80多篇,第一作者SCI检索论文22篇,主持国家自然基金项目3 项、省部级项目8项,参与国家自然基金项目3 项。

零、摘要

机器学习是如今的核心技术,在模型训练时需要大量数据。如何低成本、高效保护这些数据是一个重要问题。本文介绍机器学习及其隐私定义、威胁,对隐私保护领域现状进行概括,分析优缺点,并展望未来可能的研究方向。

一、背景知识

1.机器学习概述

机器学习(ML)利用计算机有效地模仿人类的学习活动,通过对现有数据进行学习,产生有用的模型进而对未来的行为做出决策判断。机器学习解决问题的过程分为训练阶段和预测阶段.在训练结束后获得目标模型,人们可以利用目标模型
进行预测。
按数据在模型训练前是否被集中收集,ML模型训练方式分为集中式学习、分布式学习、联邦学习。

1.1集中式学习

介绍:各参与方训练数据集中在中央服务器。
优点:模型训练部署方便、准确性提高
缺点:中央服务器存储、运算资源高负载,用户数据存在安全隐患。

1.2分布式学习

介绍:训练数据、计算负载分布在各工作结点上,中央服务器仅维护全局参数。
举例:
1.各工作节点在获得中心模型参数 w w w后利用本地数据进行单独训练,将训练后更新的梯度参数 g i g_i gi上传至中央服务器
2.中央服务器按下式将所有上传梯度参数整合至中心模型,再将模型参数分发出去
3.迭代此过程,至最后收敛
在这里插入图片描述

1.3联邦学习

介绍:特殊的分布式机器学习
对比:相较分布式学习,FL计算节点可能分布在不同的地理位置,与中心服务器一般处于远程连接的状态,同时受不同设备网络带宽的影响
举例:
1.服务器抽取一组满足条件的客户端;被选中的客户端从服务器下载当前模型权重参数和一个训练程序
2.客户端在本地计算对模型参数的更新
3.服务器收集客户端上传的参数。为提高效率,一旦有足够数量的设备报告了结果,掉队的设备可能会在此
时被丢弃
4.服务器更新共享模型.如此迭代,直至收敛.
特点:
各参与方对自己的设备和数据拥有绝对的控制权,可以自主决定何时加入或退出联邦学习.各参与方的负载不平衡,并且可能需要处理非独立同分布数据。

2.机器学习隐私定义

根据机器学习隐私保护内容的不同,可将机器学习隐私分为训练数据隐私、模型隐私与预测结果隐私。

  • 训练数据隐私:指机器学习中用户数据的个人身份信息和敏感信息。
  • 模型隐私:指机器学习中模型训练算法、模型拓扑结构、模型权重参数、激活函数以及超参数等与机器学习模型有关的隐私信息。
  • 预测结果隐私:机器学习中模型对用户的预测输入请求反馈回来的、用户不愿意公开的敏感信息。

3.机器学习隐私攻击敌手模型

  • 敌手目标:破坏模型机密性
  • 敌手知识:敌手所掌握的关于目标模型及其在目标环境中使用的信息量
  • 敌手能力:敌手可用的攻击内容和方式。
  • 敌手策略:敌手为达到攻击目标,所采取的具体攻击方式。敌手目标、敌手知识、敌手能力三者共同决
    定攻击者采取的敌手策略。
    在这里插入图片描述

4.机器学习隐私保护场景

不同隐私保护技术适用于不同场景,了解隐私保护场景是设计隐私保护方案的前提。

  • 集中式学习
  • 联邦学习

二、ML典型隐私威胁与隐私保护方案

1.典型隐私威胁

在这里插入图片描述

  • 模型逆向攻击:攻击者从模型预测结果中提取和训练数据有关的信息
  • 模型提取攻击:攻击者获得对某个目标模型的黑盒访问权后,取得模型内部的参数或结构,或是试图构造出一个与目标模型近似甚至完全等价的机器学习模型
  • 成员推断攻击:攻击者通过访问模型预测 API,从预测结果中获知某个特征数据是否包含在模型的训练集中

2.ML隐私保护方案分类

在这里插入图片描述

三、基于差分隐私的ML隐私保护机制

1.相关概念

1.1定义

差分隐私是防止差分攻击的方法,通过添加噪声,使得差别只有一条记录的两个数据集,通过模型推理获得相同结果的概率非常接近。

差分攻击是通过比较分析有特定区别的明文在通过加密后的变化传播情况来攻击密码算法的。

差分隐私定义

1.2性质

在这里插入图片描述

2.补充–常见分类

2.1拉普拉斯机制

来自维基百科

2.2高斯机制

在这里插入图片描述
找了一个应用高斯机制给梯度加噪的实例,大概过程是:

1.将每个样本对应梯度裁剪到一个固定范围,已控制个体数据的影响。
2.对裁剪后的梯度加高斯噪声 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2),已得到满足差分隐私的梯度数据。
3.用这些梯度更新模型,计算模型的隐私损失。
链接:http://www.fenghz.xyz/Differential-Privacy-in-Deep-Learning/

2.3指数机制

上述两种用于连续性数据,对于离散型数据常采用指数机制并引入打分函数,对每一种可能的输出都得到一个分数,归一化之后作为查询返回的概率值。

隐私预算和可用性成正比,和隐私保护成反比。

3.ML差分隐私扰动方法

在这里插入图片描述

3.1基于输入扰动的隐私保护方案

输入扰动是在模型训练前,先对训练数据进行一定程度的随机扰动。先有差分隐私数据合成、本地化差分隐私扰动两种方法。

  • 差分隐私数据合成:生成具有与原始输入数据相似统计特性和相同格式的人工合成数据,达到保护原始数据隐私的目的
  • 本地化差分隐私:每个用户首先在本地对原始数据进行差分隐私扰动,再将处理后的数据发送给数据收集者

作者举了一个应用解决生成对抗网络(GAN)的例子,解决GANs可能泄露训练数据隐私的问题。该方案使用两个神经网络:生成器的神经网络G,判别器的神经网络D。
G:训练从一组随机数z中生成与原始数据x足够相似的新数据。
D:判断一个样本是真实的还是生成器生成的样本。
在模型学习训练过程中,通过向判别器梯度添加 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)差分隐私保护,根据DP后处理免疫性,生成器也获得 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)差分隐私保护。
在这里插入图片描述

3.2基于中间参数扰动的隐私保护方案

本方案就是是在模型训练过程中给梯度参数或特征参数添加拉普拉斯噪声或高斯噪声,以防止敌手获取模
型或训练数据隐私。这里作者举了一些例子,简单介绍一个。

Phan等人基于逐层相关传播(LRP)算法提出的一种自适应拉普拉斯机制(AdLM)。思路如下:
1.根据LRP算法原理、仿射变换、反向传播理论,评估每个输入特征 x i j x_{ij} xij与模型输出 F x i ( θ ) F_{xi}(\theta) Fxi(θ)之间的相关性。
2.基于预训练好的神经网络计算数据集D上每个特征的平均相关性 R j ‾ \overline{R_j} Rj,并添加laplace噪声。
3.根据每个特征 x i j x_{ij} xij对输出贡献不同自适应地向特征中注入噪声,在与模型输出关系不大地特征中注入更多地laplace噪声
在这里插入图片描述
在这里插入图片描述

3.3基于目标扰动的隐私保护方案

目标扰动也称为函数扰动,是指在机器学习模型的目标函数或目标函数展开式的系数中添加拉普拉斯噪声,并最小化此目标函数的方法。与参数扰动方法不同,目标扰动方法的隐私损失是由目标函数本身决定的,与训练迭代次数无关。
目标扰动要求目标函数连续可微且为凸函数,故直接扰动目标函数不适用于神经网络等非凸模型。另一种方法是在目标函数展开式地系数中添加laplace噪声。给出基于函数扰动机制地DP方案对比,如下图。
在这里插入图片描述

3.4基于输出扰动的隐私保护方案

输出扰动是在模型训练结束时扰动模型输出参数以及在模型预测输出后扰动集成输出结果。
前一种方法是直接在训练好的模型参数上添加噪声的扰动方法,有效防止模型提取攻击,但仅实现了模型发布阶段地隐私保护,攻击者可能在前期多次请求,攻击训练数据隐私。
后一种方法往往发生在师生框架的知识转移阶段,即在利用教师模型训练学生模型时,在教师模型的预测输出投票结果上加laplace噪声.其目的是增强模型的泛化度,防止敌手对模型进行成员推断攻击和模型逆向攻击。

4.综合分析

DP相较加密技术,仅通过随机化和随机噪声扰动数据便可实现,所以不会带来过多额外计算开销,但一定程度上会影响模型可用性。

最严格的DP机制保证模型不受推理攻击或模型逆向攻击。理论上可以实现攻击者已知数据集中除一条记录之外的全部数据时仍能提供隐私保护,但这种做法将导致模型不可用。

一种解决思路是适当降低可用性,但可能造成泄露隐私。
本地化差分隐私一定程度上保证用户隐私数据在采集过程中被窃取的风险。
相较传统ML模型,深度学习模型因其目标函数是非凸函数、参数多、结构复杂,需要更多次访问敏感训练数据集才能收敛至最优解。每次参数更新都满足DP,需要很大开销。故难以权衡隐私性与模型可用性。

基于DP的生成对抗网络生成的人工数据,缺乏严格隐私保护,且接近真实样本,新样本保持了原样本特征。故难以完全保护隐私,也无法抵抗对统计特性的推理攻击。

四、基于同态加密的ML隐私保护机制

1.相关概念

  • 定义
    在这里插入图片描述
  • 分类
  • 部分同态加密PHE:只支持加法或乘法运算,且运算次数不受限制。
  • 类同态加密SHE:只支持有限次加法和乘法运算。层次性全同态加密方案(leveled-FHE),又称深度有界同态加密,也属于SHE方案。
  • 完全同态加密FHE:支持任意算法、运算次数不限。

2.典型方案分析

1.无需多项式近似的同态加密隐私保护方案

HE只支持加法和乘法等多项式运算,不支持ML过程中使用的非线性运算,如神经网络中的sigmoid和ReLU等激活函数。
解决方法之一是数据持有者来完成非线性运算。模型以加密形式将输入发送到数据所有者进行非线性转换,数据所有者解密消息、应用转换、加密结果并将其发送回来。但这种交互延迟很大,且增加了数据所有者的复杂性。

2.基于多项式近似的同态加密隐私保护方案

对于HE不支持ML中非线性运算问题,另一种解决方案是用多项式逼近技术。用多项式近似模拟神经网络。

3.综合分析

HE是端到端加密系统,使用户能更好地控制其数据,同时受益于远程服务器提供的计算服务。ML学习模型训练过程中设计的数据和参数常是浮点数形式,而HE只支持整数运算,故FHE不支持ML中激活函数等非线性运算,必须用多项式来近似。近似会导致精读和效率的下降。HE计算和通信开销很大,对当前计算资源和通信设施是一大挑战。

五、基于安全多方计算的ML隐私保护机制

相关概念

安全多方计算主要用于解决一组互不信任的参与方之间保持隐私的协同计算问题。
目前ML隐私保护主要有两类方案与多方相关。

  • 基于传统分布式学习方案。各方参与ML模型训练或测试,无需披露其数据或模型。
  • 基于HE、OT、GC等技术的2PC架构方案。
    包含两个参与方:1.数据提供方 2.基于提供的数据实现ML的服务器。

典型方案分析

基于传统分布式学习的SMC方案

目前的方案有很多,如Vaidya等人针对任意划分的数据,提出的基于MPC的k-means聚类算法。Bansal等人针对任意分割训练数据集,提出的基于HE的神经网络学习算法。
目前ML中提高SMC计算效率是大家的主要关注点。Abbasi等人提出了一种安全聚类多方计算(SCMC),允许类中存在一定隐私泄露。

基于2PC架构的SMC方案

基于2PC架构的SMC方案是由若干个MPC基础密码协议组合构建,其中经典两方计算方案有HE+GC、HE+GC+SS+OT、GC+OT、HE+GC+SS、GC+SS+OT等。

  • 0
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值