第二讲、隐私计算开源助力数据要素流通

最新推荐文章于 2024-08-13 16:46:26 发布

枫木铃子

最新推荐文章于 2024-08-13 16:46:26 发布

阅读量593

点赞数 28

文章标签：人工智能大数据

本文链接：https://blog.csdn.net/qq_48821884/article/details/139604047

版权

1、数据要素流转与内外循环

从生命周期的视角来看，数据流转会经历采集、存储、加工、使用、提供、销毁、传输等过程。整个周期大致可以分为两个阶段：数据采集加工阶段和数据价值释放阶段。数据价值释放可以分为两种形式，一种是数据在内部使用，支持内部业务，被称为内循环；与之对应的是数据与外部合作使用，被称为外循环。

数据内循环：数据持有方在自己的运维管控域内对自己的数据使用和安全拥有全责。数据外循环：外循环数据不可避免的会离开自己的运维管控域，但是在使用方运维域，持有方依然拥有管控需求和责任。数据外循环其实是构建数据要素市场的核心，通过构建数据外循环，数据提供方和数据使用方都可以受益。数据提供方可以获得新的增长点和数据资本化的机会，数据使用方可以提升业务效果，扩大营收。但是目前数据外循环的发展没有达到预期的效果，下面我们就来看一下，数据外循环中目前还存在的问题。

2、数据外循环中的信任焦虑

构建数据要素市场的关键，需要有足够的数据提供方的加入，才能有足够多的数据，数据才会呈现多样性，才能吸引更多的数据使用方加入，让数据价值真正变现，进而吸引更多的数据源方加入，这是一个理想的良性循环。

但是目前数据源方却因为种种的原因，不敢参与数据要素流通。

（1）主要还是对流通主体的担心：

①担心参与平台运维的人员，运维人员是不是是否会内部作恶，造成数据泄露。

②数据使用方是否会按照约定去使用数据，会不会产生数据滥用，进而导致产生连带责任，甚至数据市场的价值也无法得到保障。

（2）而数据使用方对数据的数据源的合规性，尤其是否得到个人用户的充分授权也存在着担心。

数据提供方和数据使用方其实也都对目前用于支撑数据要素流通的技术产品能否保证流通过程中数据或隐私不会泄露，持有怀疑的态度。简单的讲就是不够信任，数据外循环中，普遍存在的就是信任焦虑，信任焦虑也不是无中生有，因为在我们的周围，有很多有代表性的案例经常发生，时刻在提醒着我们。比如美国网络影视公司Netflix 就曾经历过用户隐私泄露的事件，他们在一场公开的比赛当中把数据进行了加密脱敏处理之后公开，但是最终还是产生了用户个人信息的泄露，受到了高额罚款。另外根据调研数据显示，来自企业内部的威胁通常要占到企业数据泄露事件的60%以上，这些内鬼们也在告诉我们，内部人员并不一定是可信的人员。另外一个案例 Facebook与剑桥公司之间发生的事情，这是从另外一个角度上，看到了主体不可信的代表，英国剑桥公司承诺删除之前Facebook授予的数据，但是之后他们依然使用了这批数据用于增值广告分析，最终导致Facebook的巨额罚款。

这种问题也和数据的特性是有关系，数据是具有可复制性的，这让数据持有方无法相信数据使用方所做出的承诺，更没有办法保障数据持有方的基本权利。

过去数据流通的主要模式是将数据打包交付，从某种意义上来讲，就是将数据所有权完全交付，这是一个关键。随着我国数据20条的出台，数据三权分置也成为了大趋势，数据三权包括数据资源持有权、数据加工使用权和数据产品经营权。三权分置的目的其实是期望将数据持有权和使用权分离。只有这样才能真正做到持有者的持有权被全面保障，而让使用权用于流通，减轻信任焦虑，从而真正的激活数据要素行业的发展。在基础上如何实现三权分治成为了关键，过去基于主体信任的模式是否能够真正的支撑起来这种模式，这还值得进一步的探讨。

信任的本质其实是我们对不确定性和复杂性产生的一种心理依赖。比如过去我们找中医看病，基本上都是基于口碑或历史经验做出的判断。这种判断其实在内心里其实是很虚的，因为我们不知道对方是依据什么来给我们做出的诊断结论。直到医疗科技发展起来，有了更多的机器设备，可以进行技术上的检测扫描、辅助诊断之后，我们对医疗逐渐开始产生了技术信任。同样的在数据流通过程中，我们过去也更多的是基于主体信任，信任合作的企业和企业内部的工作人员。但是这些人员或机构是不是值得信任这是一个疑问，我们非常需要完备的技术手段和安全验证方式，来支撑理性的判断，以确定数据流通过程中，是否会发生数据安全事件。基于安全可信的技术信任体系，才是全行业数据要素安全可控流转的基础。构建这样一个安全可信的技术信任体系，大体上需要如下三类技术：

①匿名化技术，这可以用于解决隐私保护的问题。

②在数据互联层面，前几年隐私计算技术的发展已经验证了，可以支撑建立一个密态数据互联的网络，防止数据计算过程当中产生泄露。这只是数据层面上的还不够，还需要控制层面上做更多的工作。

③ 数据使用权的跨越管控，在跨越管控中对数据使用进行精细化的控制，防止数据越权滥用。要做到这一点，可能需要区块链可信计算的技术支撑，这样才能真正形成一个技术信任体系，解决信任焦虑的问题。

数据要素流通中的技术信任的核心，还是底层需要有一个完备的信任链。这个信任链需要从信任根、硬件平台、操作系统到应用系统整个链路的可信认证。同时还需要将运维人员的权利关在笼子中，限制其只能做允许的、预期内的行为申请。只有这样才能真正防止内部人员作恶的可能。当然远程验证的能力也是必不可少的，数据的使用必须由持有者进行决策是否授权。无论数据流转到哪个环节，做到这几个方面，才能保证上层的管控策略切实可行，解决信任焦虑的问题。这对于数据流通，尤其是重要数据流通是非常关键的。

3、数据要素流通对隐私计算的期望

事实上现在一谈起数据要素流通，就难免提到隐私计算。数据要素行业在发展也对隐私计算技术寄予了更多的期望和要求，同样隐私计算技术也在不断发展，其内涵也在不断丰富。传统的隐私计算主要解决数据可用不可见的问题，也就是数据可以使用，但是碰不到原始数据。这在一定程度上可以打破数据孤岛，实现数据互联。现在的数据隐私计算逐渐向外延伸，还需要解决数据可算不可识的问题。也就是在数据参与流通计算的过程当中，不能繁衍出用户的隐私信息。大家可以看到这里的一个例子，不同的图像处理的方式可能会带来的效果是不一样的。下面的这种处理的方式经过实际验证依然是可以恢复用户的头像的，这就无法达到隐私保护的目的。

此外数据要素流通还要求隐私计算能够解决，数据使用过程当中可以被精准的管控，甚至可以计量使用情况，这其实是数据使用可控可计量的问题。总结一下隐私计算的内容现在已经逐步被扩展到了三个方面，数据可用不可见、数据可算不可识使用可控可计量。

目前的数据要素流通中，经常需要使用隐私计算产品，由于隐私计算路线很多，产品也很多，不同的技术路线，安全水位其实并不相同，性能差异也很大，很多时候让平台产品的使用方很难做出合适的选择，毕竟使用方也无法从专业的视角进行评估。如何衡量隐私计算产品的能力，尤其是各种产品的安全水位，这里需要一个统一的度量尺度。只有在同一个安全水位上，我们再看各个产品的性能、可靠性适用性或成本才合理。

所以从这个角度上，隐私计算产品需要通用的安全分级和评测方式，甚至是权威机构的测评认证。随着数据要素行业的发展，有使用隐私计算需求的机构也越来越多。但隐私计算的专业性还是非常高的，一般的企业由于人员储备和技术沉淀都不够，很难快速接入并使用隐私计算。隐私计算要想得到大规模的普及应用需要开源，通过开源可以让更多的企业快速使用隐私计算技术。同时开源之后，用户可以看清代码的实现方式，分析其内在的合理性和安全性，进而从专业的视角判断产品的安全可信性。一旦开源产品能真正的规模化应用，也可以进一步的促进数据要素流通中事实标准的发展。毕竟无论行标还是国标，都需要最佳实践的验证。而且数据要素行业涉及面广、影响面大，很需要实际应用的验证支撑。总体上讲，隐私计算开源对于隐私计算技术应用普惠，安全提升或行业标准化都有很大帮助。

4、隐私计算开源助力数据要素流通

下面我们来看一下开源隐语做了哪些工作能够助力数据要素流通。首先简单介绍一下隐语，这是蚂蚁集团在隐私计算领域多年研发沉淀并打造的开源核心隐私计算框架。隐语以安全开放为核心设计理念，支持主流的隐私计算技术，解决隐私保护和数据孤岛的行业痛点。目前隐语已经在金融、医疗、保险、政务等多个行业应用实践，并收获了众多高校企业、开源社区的共建支持，来推动隐私计算技术行业可持续的发展。隐语在技术上有四大优势：①统一架构。隐语推出了行业首个明密文混合统一技术路线框架，同时支持联邦学习、多方安全计算、可信执行环境、可信密态等多技术路线。②原生应用。隐语首创 AI/BI 密态编译器支撑了工业级的原生 SQL 分析、原生 AI 训练/预测框架等复杂应用，保持用户熟悉的接口同时，引领行业密态计算走向更复杂、更具挑战的场景。③开放拓展。具备模块化设计、开放的接口、可扩展的数据存储等特点，硬件层/计算层/算法层等均支持开放拓展。灵活易集成，能够快速匹配业务变化及技术发展需求。④性能卓越。既能支持业务在早期 PoC 阶段的快速迭代，也具备PoC 验证成功后的大规模生产能力，可支持十亿级求交、千万级建模。其性能已经过金融/医疗/保险/政务等多个行业场景的实战淬炼。

隐语开源经过多轮安全验证。首先在开发过程当中有三支内部安全团队，会分别独立验证；然后在公测阶段会进行公开的安全验证，并定向邀请专业团队进行专业验证；最后才会发布所以引语开源。在安全性上是有足够高的保障的。隐语目前已经得到多项权威认定和荣誉奖项，也为多项国内外标准制定提供了参考依据。隐语在推动行业生态建设方面主要做了以下几件事情：① 联合国内外多家厂商，打造硬件加速生态； ②推进互联互通，连接数据孤岛； ③建立SIG特别兴趣小组，推动行业共建共享。

总结一下今天主要的分享的内容，（1）数据要素大潮带来了全新的数据安全，外循环的技术挑战、信任焦虑是我们看到的数据要素流通面临的问题。（2）我们需要从主体信任走向技术信任，构建技术信任体系。而隐私计算也因此面临新的机会，隐私计算的内涵在不断的丰富，从可用不可见，逐渐发展到可算不可识可控可计量。当然隐私计算产品的能力还需要标准化的度量尺度，来统一衡量。（3）数据要素流通需要开源的隐私计算，才能够让隐私计算降低接入门槛。

枫木铃子

关注

28
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
第二讲、隐私计算开源助力数据要素流通

1、数据要素流转与内外循环从生命周期的视角来看，数据流转会经历采集、存储、加工、使用、提供、销毁、传输等过程。整个周期大致可以分为两个阶段：数据采集加工阶段和数据价值释放阶段。数据价值释放可以分为两种形式，一种是数据在内部使用，支持内部业务，被称为内循环；与之对应的是数据与外部合作使用，被称为外循环。数据内循环：数据持有方在自己的运维管控域内对自己的数据使用和安全拥有全责。数据外循环：外循环数据不可避免的会离开自己的运维管控域，但是在使用方运维域，持有方依然拥有管控需求和责任。数据外循环其实是构
复制链接

扫一扫