数据脱敏风险评估
数据脱敏风险评估,是对脱敏的数据的隐私泄露风险进行分析和刻画。其技术主要可分为两类:基 于人工抽查的定性判定方法、和通用的评估技术。其中,基于人工抽查的定性判定方法,指的是按照标 准流程和表格进行专家检查和
判定,然而,这种方法成本十分昂贵。
通用的风险评估技术与数据脱敏方法与模型无关,在学术上通常称为重标识风险(re-identification
risk)的度量。加拿大学者 El Emam 建立较为通用的重标识风险评估理论与方法 ,根据攻击者能力,以 及攻击意图将攻击分为三类场景,并将其形象化命名为⸺检察官攻击 (Prosecutor attack)、记者攻
击 (Journalist att
ack)和营销者攻击 (Marketer attack)[21],相关描述由表 4-1 所示。。
表 4-1 重标识攻击场景与举例
攻击场景 | 描述 | 潜在攻击者 | 举例 |
---|---|---|---|
检察官攻击 | 攻击者知道某个特定人员在公开的数据集(背景知识), 且了解特定人员的身份属性信息(攻击能力),由于 好奇特定人员的其他敏感属性(攻击意图)发起针对 特定目标的攻击 | 1、朋友 2、同学 3、邻居等 | 某个人了解他的同学是某次受访的调 查对象,他在公开网站的去标识化数 据集去查找他的同学属于哪一行记录 |
记者攻击 | 攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),但他并不知道数据库的人员是否在公开的 去标识数据集中,他通过多次炫耀式攻击证明某人可 以被重新标识,使得公开数据库的组织感到难堪或者 名誉扫地(攻击意图) | 1、公众人士 2、研究人员 3、竞争对手等 | 研究人员将去标识化的医疗患者信息 数据集与公开的州选民的登记表进行 关联,恢复和确认大部分患者信息的 身份 |
营销者攻击 | 攻击者拥有私有的或者可访问公开的身份数据库(攻 击能力),他将其与去标识化数据集进行关联,实现 对身份数据库的人进行扩展更多维度的画像(攻击意 图),无需证明重标识结果的 |