了解大模型机理的开发者都知道,数据是大模型训练的基础,其质量和数量很大程度上决定了模型的效果。通用大模型的训练数据,大多来自公域的网络开放数据,一旦碰到垂直领域的细分场景,模型效果便大打折扣;而垂直大模型则大多由行业服务提供商或行业标杆企业所主导,数据来源有一定局限性,同时由于其应用场景对模型效果的要求更加严格,导致模型效果同样参差不齐。
试想一下,如果把城市、行业、企业等的私域数据以合法合规、安全高效、“可用不可见”的方式共享共用,将会给大模型带来怎样的想象空间?
而实际上,大模型训练只是当前数据价值释放被压抑的一个场景,数据价值释放面临的挑战远不止于此。
三个缺乏:数据要素价值释放的拦路虎
当前,数据流通的主要形式正在从“内循环”走向“外循环”。这意味着,基于主体信任的数据安全体系被彻底颠覆,安全风险成为数据供给与流通利用的首要顾虑。数据要素价值的释放,其核心在于流通与应用的效能,更确切地说,是取决于数据要素参与方之间“联合加工”的效能。然而由于信任缺失,数据价值释放面临“缺乏加工、缺乏融合、缺乏验证”三大行业难题:
缺乏加工:大量数据仍处于毛坯状态,数据缺乏初级加工和治理;
缺乏融合:数据孤岛普遍存在,多源数据融合难,难以形成高价值数据产品;
缺乏验证:基于业务场景的价值验证缺乏,海量数据价值不明确,难以快速应用。
破解“三个缺乏”的困境,是数据要素产业化、释放数据价值亟待解决的问题。
2024年11月,国家数据局发布《可信数据空间发展行动计划(2024-2028年)》,指出到2028年,我国将建成100个以上可信数据空间,形成一批数据空间解决方案和最佳实践。这是国家层面首次针对可信数据空间这一新型数据基础设施进行的前瞻布局,为数据流通破局指明了方向。
在数据安全流转上,隐私计算、数据沙箱、区块链、智能合约等技术路线和解决方案齐头并进,并取得了一定的成效。但在同时解决数据流通与应用的“安全、性能、成本”问题上,这些技术路线和方案各有优劣,技术探索还有很长的路要走。
三大优势:全链路安全、高性能、低成本
4月28日,在第八届数字中国建设峰会期间,蚂蚁密算发布了业内首个基于全栈自研密态计算技术体系的密态可信数据空间产品,为数据融合利用加工提供全链路安全、高性能、低成本的密态化保障,覆盖数据融合、研发和产品交付等关键环节,支撑城市、行业、企业等三大场景低门槛建设可信数据空间。
接下来分别解释一下上面这段话的六个关键词。
密态计算:密态计算是通过整合密码技术、可信硬件与系统安全技术实现的下一代隐私保护计算范式。其中,密码技术如同“安全锁”,通过同态加密、多方安全计算等算法对数据进行加密处理,确保计算过程中原始数据不暴露;可信硬件构建了“保险箱”式的可信执行环境(TEE),在硬件层面隔离敏感数据;系统安全技术则从整体架构角度建立防护体系,三者协同形成端到端的安全屏障。
全栈自研:密态计算作为密态可信数据空间的核心技术,其软硬件均由蚂蚁密算及其产业生态伙伴自主研发,涵盖安全芯片、可信系统软件栈(安全操作系统、机密计算技术栈)、隐私计算框架、数据流通枢纽等多个层面。
全链路安全:密态可信数据空间基于可信技术、密码技术、安全编程语言等,能够有效缓解各类软硬件攻击,并确保程序运行时安全,安全强度可达等保四级水准,提供数据汇集、存储、计算、研发、治理到结果交付的全生命周期保障。
高性能:密态可信数据空间通过运用可信根,将原本的跨网交互变为同网交互,消除网络瓶颈。通过密码协议和密态编译器的优化,消减计算瓶颈,整体效率大幅提升,实现PB级数据分钟级计算,为大规模数据处理提供有力支持。
低成本:传统隐私保护技术的成本相比明文计算动辄千倍以上,通过密态计算技术实现中安全级数据保护的全程密态成本,已低于明文分布式计算的2倍,高安全级则低于10倍。而通过技术优化和集中化部署基础设施,密态可信数据空间产品可显著降低计算与运维成本,在提供对标等保四级的安全保障前提下,全链路密态计算成本可以低于数据流通价值的5%,能够有效支撑数据跨地域跨行业规模化的可信流转。
低门槛。星绽可信系统软件栈、隐语隐私计算框架等核心组件已全面开源,企业可快速搭建应用。同时,密态算力支持跨云、集群及单机等多种部署方式,大幅降低企业应用门槛。
三层架构:解构密态可信数据空间
从蚂蚁密态可信数据空间架构图上可以看出,其架构可以分为密态计算底层技术体系、可信管控、价值共创三层。
蚂蚁密态可信数据空间产品架构图
密态计算底层技术体系层由芯片级安全隔离环境、星绽开源可信系统软件栈、隐语开源可信隐私保护计算框架组成。
蚂蚁自主研发的可信根芯片“Blade”和高性能密码芯片,实现了底层安全硬件的国产化。密态可信数据空间基于国产可信根(TPM/TCM)构建芯片级可信执行环境,支持远程验证。即使数据流出持有方的管控域,持有方仍然能够依据可信根对可信执行环境进行验证和管控,无论该设备部署在什么地方或者由谁来运维,实现了技术信任的基础和雏形。
星绽开源可信系统软件栈包括星绽OS和星绽机密计算两大项目,分别面向通用执行环境和可信执行环境提供安全原生的系统软件,为云计算、数据可信流通、人工智能等安全攸关的计算场景,构建安全可信的技术底座。其中,作为下一代工业强度的开源通用OS内核,星绽OS实现了NbSP零越安全范式,兼顾性能和安全,采用首创的框内核架构和新兴的Rust编程语言,支持x86和RISC-V等CPU体系架构,支持将通用算力平滑升级为密态算力,实现可信根与CPU硬件厂商的解耦,以及可信根的自主可控。它不仅能兼容Linux的应用程序,还在安全性方面有望大幅领先于Linux和其他现有主流OS,提供了一个安全高效普适的可信运行环境。
隐语开源可信隐私计算框架则集成了现有的主流隐私保护计算技术,包括可信执行环境、多方安全计算、联邦学习、同态加密等,通过计算的相互组合有效地支撑了复杂和大型的计算任务。同时,通过支持分层设计和开箱即用的隐私保护数据分析、机器学习功能,有效降低了开发者应用的技术门槛。
可信管控层基于密态计算底层技术底座,由Spark等众多工具组成,实现了数据汇聚、算力调度、跨域管控、分布式可信身份、全链路可信审计等能力,为大数据、大模型提供全流程数据信任管控,确保任何参与方均无法在授权范围外窃取或滥用数据,为数据提供方提供全链路的安全保障。
“这些数据加工工具软件并不是由蚂蚁密算从头自研的,而是基于行业最常用的开源工具软件在密态可信数据空间软硬件基础设施上做了密态化适配或者易用性提升。蚂蚁密算的终极目标是让终端用户在使用过程中感知不到密算的存在,放心使用和共享数据。”蚂蚁密算CEO王磊这样解释。
在可信管控层之上的价值共创层,密态可信数据空间以“空间连接器+密态枢纽平台”构建了基于密钥管控的虚拟数字空间边界,即“密态管控域”。多方的密态管控域可以高效融合,同时不丧失各自的管控能力,从而形成一个可同时被多方信任的数据融合加工域,支持多场景、多源数据的密态研发,支持多方开展联合加工与价值验证。
从这三层架构看下来,蚂蚁密算希望构建一套数据领域的包括芯片、操作系统、计算引擎在内的基础软硬件环境。
三份底气:长期坚持、开源开放、生态协同
追根溯源,蚂蚁密态计算的布局,始于2016年起在隐私保护计算技术领域的持续投入。经过近十年的坚持,蚂蚁目前在新兴隐私保护计算领域的专利数全球第一、累计超1200件,发表相关国际顶级学术会议/期刊论文50多篇,主导9项国际标准,并多次获得国家级会议奖项。
2024年,蚂蚁集团宣布了未来十年的科技战略,将聚焦人工智能和数据要素技术,并成立独立运营的蚂蚁密算作为数据要素战略的实施主体,提供密态可信数据空间等密态计算相关产品和服务,助力数据安全可信流通体系的建设。
前面提到,蚂蚁密态可信数据空间的建设,相当于芯片、操作系统、计算引擎等各自领域一家企业在做的事情,其难度可想而知。蚂蚁也深知这一点。
因此,“密态可信数据空间,从一开始就是要做平台,而且是开源开放的平台、生态共建的平台,以基础技术开源社区的建设与产学研协同发展,促进蚂蚁密态可信数据空间的繁荣。”蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬表示。
星绽可信系统软件栈在2024年10月由中关村实验室、蚂蚁集团、北京大学、南方科技大学等产学研机构联合向全球开发者开源;隐语可信隐私计算框架则早在2022年7月就对外开源,以安全、开放为核心设计理念,支持MPC、FL、TEE等主流隐私计算技术,融合产学研生态共创能力。
由此,在成立不到一年的时间里面,蚂蚁密算已支持杭州建立全国首个密态计算中心,为江西省建立数据汇聚流通基础设施平台提供技术支持。在本届数字中国建设峰会期间,蚂蚁密算还联合浙江大学、公安三所、福建省大数据集团、数字福州集团、福州金控集团、华为计算、中国联合数据、兴业银行、海峡银行等产业链上下游机构,发起“可信数据流通应用产业链共建行动”。
数据产业继续发展需要破解“数据要素市场化配置改革”这一世界难题,也需要匹配的基础设施实现数据价值安全高效地共享共用。正如韦韬表示,产业实践中依然挑战严峻,数据流通面临多方位的安全威胁,高价值高敏感数据跨主体融合利用困难,这在很大程度上限制了人工智能等前沿技术的产业应用。
“我们相信,通过持续攻克核心技术、推动产业创新应用落地、建设数据标准、优化审批流程、释放政策红利等多重因素的共同作用,有望在数据价值释放这一全球性挑战上,创造出新的中国实践。”韦韬说。