【重要说明】中文学术语境中“隐私计算”概念有两层含义,注意⚠️
一是作为理论假设的隐私计算(Privacy Calculus)
隐私计算(privacy calculus)是指用户在隐私决策过程中会权衡隐私披露的“风险—效用”情况,如果收益大于风险,用户便有足够的理由和动力进行健康信息表露。但某些情形下,用户声称极度担忧隐私,但仍毫不犹豫地公开私密健康资料,这种隐私信念同实际行为选择不一致的矛盾状态被称为“隐私悖论”(Privacy Paradox)。隐私计算理论代表的规范观点认为,个体是在收益同损失均衡博弈的理性状态下制定效用最大化方案,以指导特定决策。
这个意义上的隐私计算研究的文章是从隐私计算到转换意愿:基于“风险—效用”的交互效应和隐私关注的中介效应考察
二是作为数据安全保护技术的隐私计算(Privacy Compute)
隐私计算(Privacy Compute)融合密码学、人工智能、芯片设计等学科,以多方安全计算、差分隐私、可信计算为代表技术,可在保证数据隐私不泄露的情况下实现计算分析,为跨组织的数据共享提供可行的技术方案,保障数据“可用而不可见”。与传统数据使用方式相比,隐私计算的加密机制能够增强对于数据的保护、降低数据泄露风险。隐私计算的主要特点包括:“数据可用不可见,数据不动模型动”、“数据可用不可见,数据可控可计量”、“不共享数据,而是共享数据价值”等。
OpenAI开发的人工智能应用ChatGPT自2022年11月发布以来,持续受到了全球的广泛瞩目,甚至被认为开启了第四次工业革命。而在2023年3月22日,ChatGPT却被曝出存在用户隐私漏洞,用户能够看到其他用户对话历史记录的标题,引发了公众对ChatGPT隐私泄露风险的担忧。3月31日,意大利个人数据保护局宣布禁止使用ChatGPT,德国等其他欧洲国家也陆续跟进发声,表示会考虑禁止ChatGPT收集数据。
01.隐私计算的背景
计算机和互联网的发展,是过去五十年社会经济发展的主要引擎之一。它带来了前所未有的效率,产生了新的生产要素——数据,同时也有它的另一面——数据安全问题。于国家和政府,于企业和组织,于个人,数据风险成为最重要的日常威胁。计算机和互联网带来的空前繁荣的数字经济,如果没有数据安全,将会陷入瘫痪和停滞。
数据安全的威胁,简要而言,可分为来自民间的威胁和来自权力机构的威胁。
对于来自民间的威胁包括数据垄断、数据泄露、数据窃取和数据贩卖等问题。比如,在数据垄断方面,基于数据垄断优势进行“二选一” “大数据杀熟”等,侵犯消费者权益的行为层出不穷。在数据泄露方面,除了媒体关注的一些典型案件,还存在大量的“暗泄露”。根据美国国防信息系统局的分析,绝大多数的安全泄漏(96%)没有被报告,因此根本就没有被检测到(雪莉.大卫杜夫《数据大泄露:隐私保护危机与数据安全机遇》)。
权力机构对数据安全的威胁,最典型的莫过于“9·11”之后美国情报部门的行为。美国在“9·11”事件后通过的一些法案,使情报部门在信息搜集和监控上的权力极度扩张。2011年1月,美国在犹他州建立了一个美其名曰“实现和保护国家的网络安全”的数据收集系统。这个设备的能力包括监控所有美国居民发出或收到的电话、电子邮件、短信、谷歌搜索或其他电子通讯(无论加密与否),所有这些通讯将会被永久储存用于数据挖掘。斯诺登曝光的棱镜计划和上游收集计划更是全面监控个人信息,斯诺登形容政府对个人的监控为“无所不嗅,无所不知,无所不收集,无所不处理,无所不利用,无所不合伙”。
数据安全问题的影响可谓无所不在,比如国际关系。斯诺登事件中就包含了美国情报机构对其他国家信息的截取;国家政局,剑桥分析公司事件深刻影响美国和英国的大选;商业运行,数据泄露问题引发了大量的商业危机,以至于网络安全保险成为一个重要的险种;个人生活,隐私问题成为个人生活中的最大隐患之一。
无论是为了满足法律和监管的要求,还是市场的需求,围绕数据安全,发展出一个越来越庞大的技术产业链。
02.隐私计算前传:隐私权的历史起源
“隐私权”理论来源于由塞缪尔·沃伦(Samuel Warren)和路易斯·布兰代斯(Louis Brandeis)在1890年合作发表在《哈佛法律评论》上的同名文章《隐私权》,该文将隐私定义为专注于保护个人的“不受打扰的权利”。
布兰代斯成为美国最高法院大法官后,在“奥姆斯特德诉美国”案中将这种“不受打扰的权利”的概念与美国宪法第四修正案提供的权利结合起来,将个人隐私权上升到美国宪法层面,这一观点在日后逐渐得到美国司法界的普遍认同并扩展到更大范围,比如美国最高法院最具有里程碑意义的裁决,1973年“罗诉韦德案(Roe v. Wade)”中[7],九名大法官以 7-2 的投票结果裁定,美国宪法第十四修正案的正当程序条款也提供了一项基本的“隐私权”来保护孕妇的堕胎权,从美国宪法层面将个人的“身体”也包含在隐私权的保护范畴。
沃伦推动《隐私权》撰写的另外一个历史背景来自于技术进步。美国南北战争后,数十年的科技发展给沃伦和布兰代斯生活的波士顿地区带来了巨大变化:贝尔在波士顿发明了电话,第一个商业电话交换机于 1877 年在波士顿开通;与此同时,还出现了电报、便携式照相机、录音设备。这些技术发明给新闻记者提供了更强大的音视频采集和信息传送工具,“威胁着收集和传播有关个人的信息到整个世界”,《隐私权》文章的意图是建构一个“可以用来保护的原则”,让个人隐私免受这种新兴技术的侵害,“不受过于进取的媒体、摄影师或任何其他用于记录或再现场景或声音的现代设备的拥有者的入侵。”
03.人工智能时代的隐私安全风险
人工智能模型训练需要经过数据采集、存储、共享、计算等阶段,分别面临不同的隐私安全风险——
采集阶段:主要面临样本数据隐私过度采集的风险,按照信息安全法规,企业在采集、保存、使用用户数据时应遵循“用户自愿原则”和“最小化原则”,需要依法依规判定数据的隐私合规性,否则将面临数据隐私违规过度采集的风险;
存储阶段:随着数据安全相关法律法规的完善,数据的分级安全管理等逐渐成为硬性要求,在样本数据存储时,“大汇聚”的数据集中存储模式将承担更大的数据安全管理责任,大规模样本数据的分级、权限管理极其复杂,稍有不慎就会出现影响恶劣的隐私泄露事件,将极大地增加隐私数据安全合规风险;
共享阶段:由于模型训练对数据规模和质量的较高要求,样本数据往往需要跨多个数据所有者进行共享传输,隐私数据可能遭受的攻击面扩大,存在数据越权访问、数据泄露、数据滥用等风险;
计算阶段:不同类型的模型训练任务需要分别构建标注样本集,在执行有监督机器学习时需要由人参与样本集的构建等工作,样本数据集的交叉使用过程中存在隐私数据滥用的风险,最终训练完成的模型在面对模型萃取、成员推理等攻击时,也存在隐私数据和模型成果泄露的风险。
04.隐私计算的内涵
隐私计算技术由于其既能促进数据流通又能保护隐私安全的特性,被广泛认为是当前破解数据流通困境的最佳手段。
隐私计算融合密码学、人工智能、芯片设计等学科,以多方安全计算、差分隐私、可信计算为代表技术,可在保证数据隐私不泄露的情况下实现计算分析,为跨组织的数据共享提供可行的技术方案,保障数据“可用而不可见”。隐私计算的主要特点包括:“数据可用不可见,数据不动模型动”、“数据可用不可见,数据可控可计量”、“不共享数据,而是共享数据价值”等。
目前,隐私计算已经形成了三大技术流派:即分为密码学、可信硬件和联邦学习三个流派。以密码学为核心技术的隐私计算以多方安全计算、同态加密为代表;可信硬件以可信执行环境(TEE)为主导;“联邦学习类”泛指国内外衍生出的联邦计算、共享学习、知识联邦等一系列名词,是指多个参与方联合数据源、共同建模、提升模型性能和输出结果准确性的分布式机器学习。
具体来说,隐私计算解决的问题包括——
A.数据泄露风险:传统的数据处理方式往往存在数据泄露的风险,隐私计算通过加密和安全协议等手段,保护了数据的机密性和完整性,避免了数据泄露的风险。
B.隐私保护:隐私计算可以实现数据所有者对数据的完全控制,使得数据在使用过程中不会被恶意攻击或泄露,从而保护了个人隐私和企业商业秘密。
C.数据共享和流通:在数据驱动的数字化时代,数据共享和流通是不可避免的,但传统的数据共享方式存在数据泄露和滥用的风险。隐私计算可以实现数据的“可用不可见”,使得数据可以在不泄露的前提下进行共享和流通,从而促进了数据的价值最大化。
D.提升数据价值:传统的数据处理方式往往会对数据进行破坏或丢弃,导致数据的价值无法得到充分利用。隐私计算可以在保护数据的同时,对数据进行深度分析和挖掘,从而提升数据的价值。
END
参考文献:隐私计算:为数字经济进入下一程构建基石,新华社客户端
隐私计算简史:数字时代的隐私权保护,阿里研究院
耿书培,在线健康社区中的隐私悖论:青年用户的隐私忧虑与互动实践,《新闻与传播评论》
本文编辑:🌰栗子姐
审核:凯乐学长