读数据科学伦理:概念、技术和警世故事08隐私保护数据挖掘

1. ε-差分隐私

1.1. 差分隐私的概念是由辛西娅·德沃克(Cynthia Dwork)提出的,是数据科学的黄金标准之一,它将隐私纳入其中

1.2. 差分隐私的目标是让社会科学家共享有用的统计数据,这些统计数据与敏感数据库有关

  • 1.2.1. 如果不考虑隐私问题便回答,就可能会泄露私人敏感信息

  • 1.2.2. 采用k-匿名方法查看数据,背景信息也会泄露个人信息

1.3. 去中心化差分隐私

  • 1.3.1. 在记录数据时添加噪声

  • 1.3.2. 去中心化差分隐私需在记录数据前添加噪声

  • 1.3.3. 如果数据面临巨大安全风险,则选择去中心化差分隐私技术,如谷歌公司和苹果公司的应用案例

1.4. 中心化差分隐私

  • 1.4.1. 在结果中添加噪声后,再将其提供给局外人

  • 1.4.2. 相比于局外人,人们更相信数据分析师

  • 1.4.3. 中心化差分隐私是直接在结果中添加噪声

  • 1.4.4. 中心化差分隐私需要人们相信数据分析师,但去中心差分隐私则无此要求

  • 1.4.5. 如果数据泄露风险有限,则选择中心化差分隐私技术

1.5. 这两种差分隐私的选用取决于记录数据面临的风险,如遭到黑客攻击、传唤,或者数据分析师内部员工未经允许查看数据等

1.6. ε-差分隐私:​“算法的一种属性,即无论使用数据集与否,其结果基本相同。​”

1.7. ε-差分隐私基本原则

  • 1.7.1. 无论算法使用个人数据与否,其结果应基本相同

1.8. ε-正式定义:​“如果两个数据集D和D'只有一个数据实例不同,算法A可能得出的所有结果S满足以下公式:P[A(D)∈S]≤e^ε·P[A(D')∈S]'其中,ε≥0。​”

1.9. 隐私参数ε

  • 1.9.1. 衡量隐私损失

  • 1.9.2. ε参数被称为隐私损失参数

  • 1.9.3. ε数值越小,隐私保护性就越好,无论是否使用个人数据,结果变动的概率都会越来越小

  • 1.9.4. 如果ε趋向于零,结果就是概率需要完全相同,只有数据全都是噪声,而无任何信号时,这种情况才会发生

  • 1.9.5. 当ε=0时,隐私得到完全保护,算法输出的结果无法反映出数据集的任何有用信息

    • 1.9.5.1. 相反,ε数值越大,隐私保护性就越差

1.10. 拉普拉斯分布噪声

  • 1.10.1. 平均值为0,标准差为1/ε

1.11. 经验法则一,ε取值一般在0.001到1之间

  • 1.11.1. 差分隐私需要增加最小数据集所包含的记录,以提供准确结果

1.12. 经验法则二,即“若数据集的记录不超过1/ε条,则算法输出的结果几乎无法反映出数据集的任何有用信息”​

1.13. 如果我们反复回答同一个问题,平均答案就会演变为真实答案,因为噪声的平均值为0

  • 1.13.1. 隐私风险随着分析次数的增多而变高

1.14. 差分隐私具有组合特性,即随着查询分析次数的增多,隐私泄露风险也会渐渐增加

  • 1.14.1. 如果存在两种算法,分别满足ε1和ε2差分隐私,那组合后的算法仍满足ε-差分隐私,其中ε=ε1+ε2

  • 1.14.2. 如果你总共想向外界宣布k次结果,且总体隐私预算为ε,那单次研究必须对应一个隐私参数ε/k

1.15. 差分隐私聚类技术、差分隐私回归技术以及差分隐私分类技术

1.16. 差分隐私是一种前瞻性技术

  • 1.16.1. 根据差分隐私的定义,无论是何种背景信息,采用何种计算资源或其他科学技术,差分隐私所给出的数学保证(mathematical guarantee)都是可以成立的

  • 1.16.2. 但差分隐私无法保证通过分析预测一些敏感属性

  • 1.16.3. 差分隐私技术利用隐私友好的总体计算数据作为主要用例,通过添加智能噪声来为算法提供前瞻性隐私保护

2. 零知识证明

2.1. 零知识证明方法即一方向另一方证明某秘密命题,而不泄露任何信息

  • 2.1.1. 零知识证明应用价值极大,可以在不泄露秘密的前提下,证明有关该秘密的某些命题

2.2. 例1

  • 2.2.1. 假设你从一副牌的52张中抽出1张

  • 2.2.2. 你要证明的命题是:​“我拿的是红牌”​,而秘密是你手中的牌究竟是不是红色的

  • 2.2.3. 如何向验证者证明你确实拿的是红牌呢?

    • 2.2.3.1. 零知识证明正是这样的协议,即简单浏览剩余所有牌,并展示出所有26张黑牌。因为所有黑牌均已公开,这便证明你拿的是红牌

2.3. 例2

  • 2.3.1. 插画家马丁·汉德福(Martin Handford)的作品《瓦尔多在哪》(Where is Waldo?)

  • 2.3.2. 人们需要在一张大插画中找到小人物瓦尔多

  • 2.3.3. 你要证明的命题是:​“我知道瓦尔多在插画中的位置”​,而秘密是瓦尔多的具体位置

  • 2.3.4. 零知识证明便涉及一张大木板,其宽和高均为插画的两倍

    • 2.3.4.1. 木板中央有一个小缺口,这个小缺口有瓦尔多人物的大小

    • 2.3.4.2. 你将木板放置在插画上,缺口正对着瓦尔多,便可证明你确实知道瓦尔多在插画中的位置(因为他已经暴露出来了)​,而且这样也没有准确展示出其具体位置(因为木板覆盖了插画其余部分,甚至连插画边缘也毫无外露)​

2.4. 零知识证明能够通过证明的形式分析个人数据,同时保护数据主体的隐私安全,所以深受大众欢迎

2.5. 需要满足三大标准

  • 2.5.1. 完整性:如果命题为真,诚实的证明者(正确遵循协议的一方)能够完全说服验证者相信该事实

  • 2.5.2. 合理性:如果命题为假,作弊的证明者几乎无法说服诚实的验证者相信该命题的真实性

  • 2.5.3. 零知识性:如果命题为真,验证者验证后只能知道命题为真,其他一概不知(因为秘密未曾揭露)​

2.6. 零范围证明

  • 2.6.1. 零范围证明旨在证明数值在某个范围内,而无须透露确切数值

  • 2.6.2. 零范围证明具有重要的应用价值

  • 2.6.3. 模型对象既没有泄露数据,还能得到评分

2.7. 这类证明机制还可广泛用于加密货币,增加日常交易的隐私性

2.8. 比特币采用假名制

  • 2.8.1. 发送者和接收者可以利用零知识证明来保护交易金额不被泄露

  • 2.8.2. Z-cash是一种加密货币,利用零知识证明机制来实现匿名交易

2.9. 零知识证明有望在未来实现隐私和个人数据使用的同步

2.10. 零知识证明分别向证明者和验证者提供了一个答案

3. 同态加密

3.1. 同态加密技术可以对受保护数据进行计算

3.2. 随着云计算的日益普及,同态加密作为实现数据保护的关键技术,得到了广泛应用

  • 3.2.1. 未来云计算领域的重要组成技术

3.3. 一旦要对这些数据进行一些计算,我们就必须在计算前把数据解密

  • 3.3.1. 那时,数据被透露给服务器,变得不再安全

  • 3.3.2. 需要使用同态加密技术加强数据保护

3.4. 同态加密是一种加密形式,可以直接对加密数据本身执行计算

3.5. 银行可以将客户的所有个人数据及金融交易信息发至云端,无须解密便可利用云计算服务来每天计算客户的信用评分

3.6. 目前还无法将“全同态加密”(FHE)方案投入实际应用

3.7. 通过全同态加密,我们可以对密文数据执行任何操作

3.8. 2009年,克雷格·金特里(Craig Gentry)在斯坦福大学进行的博士研究中,开创性地提出了一种理论方法,可以执行“全同态加密”​

  • 3.8.1. 全同态加密方案还具备另一个优势,即它基于晶格实现加密,而非大整数分解,这表示全同态加密方案在量子计算时代也可以保证数据隐私安全

3.9. “部分同态加密”方案,即RSA算法

  • 3.9.1. 部分同态加密(PHE)方案只允许在密文数据上进行一种特定运算

3.10. 同态加密技术对大数据研究也大有裨益

  • 3.10.1. 很多应用程序往往具有大数据集,其中包含众多个人及敏感数据,例如脸书的点赞、银行付款数据、各大网站的在线浏览数据等,但这些数据共享受到了极大限制

  • 3.10.2. 研究人员可以应用全同态加密方案来直接处理密文数据,而无须泄露任何个人数据

3.11. 全同态加密技术前景广阔,而且在计算速度方面取得了很大进步

4. 安全多方计算

4.1. 安全多方计算(SMPC)旨在保护人们的隐私安全,且在无可信第三方参与的情况下,进行同等精确计算

4.2. 安全多方通信允许m方在无第三方参与的情况下,共同对密文数据进行分析

4.3. 该方法应用广泛,如计算各方选票,而不透露任何一方的具体数值;再或者,拍卖会上只透露中标结果,而不公开各竞标者的出价

4.4. “安全多方计算”概念由姚期智于1982年提出

4.5. 在分布式环境中,m方参与者P1,P2,…,Pm无须可信第三方参与,各自秘密输入信息x1,x2,…,xm,共同参与计算目标函数f(x1, x2, …, xm)

4.6. 计算结束后,各方参与者获得与之相对应准确且不包含其他信息的输出结果

4.7. ​“安全通信”是一种个人隐私保护方法,在无可信第三方参与的情况下,进行数据分析

4.8. “多方”指提供秘密数据的众多参与者

4.9. 隐私保护集合交集(Private Set Intersection)便属于该领域的一个特定应用类型

4.10. 丹麦最早使用安全多方计算技术来拍卖甜菜,计算市场均衡时甜菜的价格,这是安全多方计算技术首次应用于商业领域

4.11. 如果无法在标识符(具有散列值)数据集中找到散列,那么几乎不可能知道标识符代表的是什么

  • 4.11.1. 散列是单向函数

4.12. 安全多方计算协议有不同的应用场景,只要各方希望在共享的个人数据上执行计算,这类协议对数据科学伦理领域的优点就会显现出来

5. 联邦学习

5.1. 联邦学习需要第三方参与,从而保证各参与方数据的隐私安全

5.2. 联邦学习是一种分布式机器学习技术,旨在训练高质量集中式模型的同时,使训练数据仍分布在大量客户端上

5.3. 联邦学习通过共享数据科学模型,而非数据来实现目标

5.4. 尽管敏感数据一直保留在设备上,但仍存在隐私泄露的风险

5.5. 将联邦学习与安全多方计算和差分隐私技术结合起来,可以进一步提高隐私安全性

6. 总结

6.1. 在差分隐私、零知识证明和同态加密技术中,存在着两方:一方掌握秘密或个人数据,另一方进行一些分析

6.2. 存在多方,且各方都有一些不希望与其他方共享的个人数据,但使用和分析各方的个人数据能给各方都带来好处

  • 6.2.1. 一种办法就是跟可信第三方合作

6.3. 其关键区别在于安装、参与方数量、预想的计算类型及相关用例

  • 6.3.1. 只有零知识证明和同态加密两种方法可以完美保证隐私安全,但目前很难得到实际应用

6.4. 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值