2024年Android最新差分隐私技术在火山引擎的应用实践(1),大厂面试经验分享稿

最后

我见过很多技术leader在面试的时候,遇到处于迷茫期的大龄程序员,比面试官年龄都大。这些人有一些共同特征:可能工作了5、6年,还是每天重复给业务部门写代码,工作内容的重复性比较高,没有什么技术含量的工作。问到这些人的职业规划时,他们也没有太多想法。

其实30岁到40岁是一个人职业发展的黄金阶段,一定要在业务范围内的扩张,技术广度和深度提升上有自己的计划,才有助于在职业发展上有持续的发展路径,而不至于停滞不前。

不断奔跑,你就知道学习的意义所在!

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!


1.1 隐私泄漏场景

随着用户自身隐私保护意识的提升和《数据安全法》、《个人信息保护法》等国家法律法规的陆续施行,如何在收集、使用用户数据的过程中保障用户的隐私安全、满足监管要求,成为了挑战性的问题。在互联网厂商的日常业务中,常见的用户隐私泄露场景有:

(1)数据统计查询: 对用户数据进行统计查询的结果直接向客户返回(如客群洞察等业务),存在通过差分攻击从统计结果中获取个体信息的可能性。

  • 例如,某互联网公司为外部客户提供客群画像服务,客户分别查询群体 A 和群体 B(群体 B 与群体 A 相比,仅多出一名用户甲)的居住地分布,如果第二次查询结果中居住在南京鼓楼的人数比第一次报告中多 1,那么可以推断出甲的居住地在南京鼓楼,泄露了甲的隐私信息。

(2)用户数据采集: 手机 APP、移动终端通常会采集多种用户信息(如地理位置,健康状态等)以提升服务质量和用户体验。然而,直接采集可能会导致用户隐私的泄露,同时也受到法律法规的严格限制。

  • 例如,用户甲在某专科医院看病时打开了位置定位,互联网厂商通过收集用户甲的地理位置,可能会推断出用户甲患有某种疾病,从而造成用户甲的隐私泄露。

因此,对于广大互联网厂商来说,研发高质量的隐私保护服务,以解决统计查询、数据采集等场景中的用户隐私泄露问题,同时保证数据的可用性,从而满足监管要求,为业务赋能,成为了重要的工作。

1.2 去标识化与差分隐私

传统的隐私保护手段往往通过解耦、泛化等方法去除用户记录的标识符信息(如姓名、身份证号、设备 ID 等),或通过匿名化技术(如 K-匿名、L-多样性等)对用户记录的准标识符(如街道、邮编等)进行泛化、压缩,使得攻击者无法直接或间接地把处理过的数据与用户准确地重新关联。然而,传统方法的安全性与攻击者所掌握的背景知识密切相关,并且难以对隐私保护水平进行定量分析。例如上文中的查询场景,由于攻击者有背景知识存在(知道用户甲是否在查询范围中),传统的匿名化方法无法起到预期的作用。

为解决这些问题,差分隐私(Differential Privacy,简称 DP) [1]技术应运而生。该技术提供了一种严格、可证明的隐私保护手段,且其保护强度不依赖于攻击者所掌握的背景知识。由于这些特点,差分隐私一经提出便得到了学术界和工业界的广泛认可和应用。特别地,差分隐私的通用定义为:

8fb6c961558b52cd6df07da4600acdc3.png

则称算法 M 提供 ε-DP,其中 S 是由算法 M 所有可能的输出构成的集合,参数 ε 称为隐私预算。通过调整隐私预算 ε 的取值,可以控制差分隐私保护的程度。ε 越小,添加或删除一条记录对结果的影响程度越小,隐私保护强度也就越大,计算结果的可用性越低,反之亦然。因此,在实际应用中,根据不同场景和需求,设定合理的 ε 取值以达到隐私保护和数据可用性之间的平衡,是差分隐私技术应用的关键问题之一。

1.3 基于差分隐私的保护服务

为了解决统计查询以及用户数据采集场景中隐私泄露问题,火山引擎安全研究团队基于差分隐私技术,依托自研的 Jeddak 数据安全隐私计算平台,分别研发了面向查询保护的 DPSQL 服务(Differentially Private SQL Query Service)以及面向采集保护的 LDPDC 服务(Locally Differentially Private Data Collection Service),在保障查询和采集过程中用户隐私的基础上,实现了数据的高可用目标。以下分别对两个服务进行介绍。

二、DPSQL 查询保护服务


DPSQL 采用中心化差分隐私(Centralized Differential Privacy,简称 CDP,适用于数据管理者可信的场景)[1]模式,以中间件的形式接收 SQL 统计查询请求,返回满足差分隐私的查询结果。由于现实场景中查询请求的多样性,DPSQL 服务构建面临以下关键挑战:

  1. 如何兼容不同类型数据库的查询方言,以降低使用成本、保障客户的查询体验?

  2. 如何在复杂 SQL 语句情况下计算合适的差分隐私噪声,兼顾隐私保护效果与保证数据效用?

以下将从服务架构和关键设计两个方面阐述 DPSQL 的应对措施,并对落地应用进行简要介绍。

2.1 服务架构

DPSQL 服务包含三个组件:

  1. DPSQL 核心服务:以原始 SQL 统计查询语句作为输入,输出满足差分隐私的结果,其中包括 SQL 解析与重写、差分隐私加噪等模块;

  2. 元数据管理服务:维护数据库的元数据及数据表属性特征,以便于对数据表属性进行敏感度分析;

  3. 隐私预算管理服务:维护每个数据表的隐私预算分配与消耗记录,提供隐私预算余量查询、报表和审计功能,以便于对查询请求进行隐私控制。

一个典型的查询请求处理流程如下:

  • 首先,核心服务接受客户提交的 SQL 查询语句,对该语句进行解析和重写,以便于计算隐私噪声(如将 AVG 计算改为 SUM/COUNT);

  • 然后,核心服务调用元数据管理服务,计算重写后的 SQL 查询所对应的数据表敏感度,同时在数据库上执行重写后的 SQL 查询,得到原始的查询结果;

  • 最后,核心服务调用隐私预算管理服务得到为该查询分配的隐私预算,并结合敏感度在原始的查询结果中添加噪声并返回。

ca30f6cbf2773b19aa387dcab4b68052.png

2.2 关键设计

针对前文所述 SQL 方言兼容以及查询噪声计算的挑战,团队在 DPSQL 中实现了多源异构的 SQL 解析与重写机制,以及自适应的 差分隐私加噪机制。

2.2.1 多源异构数据库 SQL 解析与重写机制
  • 采用灵活可扩展的 SQL 解析机制(parser),可支持多种 SQL 方言,与传统数据库查询无差别。

  • 采用定制化的 SQL 重写机制(rewriter),可支持多种语法特征,例如聚合函数、多层子查询、join、group by 等。

9426e194fe670feca666ce6c1b896930.png

2.2.2 自适应的差分隐私加噪机制
  • 根据 SQL 查询包含的聚合函数类型,自适应地为查询分配隐私预算,降低隐私预算的消耗;

  • 根据 SQL 查询的聚合函数类型,高效分析聚合函数在多表链接查询、多层子查询等场景下的敏感度,分配合适的差分隐私加噪算法,提高服务性能和查询结果的可用性。

c24d4da55374ac50420bb9be5f710ff4.png

2.3 落地应用

目前,DPSQL 服务已接入火山引擎的客户数据平台,为银行、车企、零售等行业客户提供隐私保护的用户群体洞察服务。凭借在隐私保护和业务合规等方面的出色表现,DPSQL 服务成功入选国内第一个隐私计算开放社区——开放隐私计算 OpenMPC 发布的“隐私计算 2021 年度优秀应用案例 TOP10”。

自学编程路线、面试题集合/面经、及系列技术文章等,资源持续更新中…

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 19
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值