Time: 20191008
链接:http://www.cs.cmu.edu/~avrim/ML07/learning-and-privacy.pdf
作者:Maria-Florina Balcan
学习 vs. 隐私
机器学习本身需要数据,但是如果数据中包含了隐私信息,该怎么办呢?比如医疗数据,网络搜索数据,工资数据,学生成绩数据等。
即使运行学习算法的人、机器能被信任,但算法本身的输出或许还是能泄露一些敏感数据。
比如说,使用搜索日志来智能补全搜索关键词。
再比如,在医疗数据上进行SVM或者感知器模型,假定特征j
是有绿色头发的,那么学习权重w
中, w j ≠ 0 w_j \neq 0 wj=0。如果只有一个人是绿色头发,肯定可以推出这个人在样本中。
处理这种情况的方法就是:差分隐私。
差分隐私
我们想要的是一种协议,使得输出是一个概率分布。这样话,person i
将他的输入从 x i x_i xi变成 x i ′ x^