从事业编到蚂蚁集团,从热门大模型到小众岗位

今年1月份,我从上海人工智能实验室大模型团队的事业单位带编岗位离职,加入了蚂蚁集团,这个选择其实是基于我对于未来数据要素流通行业的信心和选择。

时隔5个月,公司终于有重磅消息放出。

729f23f68963025334337b9057a3e5a2.jpeg

上篇文章《北漂十年:走不出浪浪山,渡不过的书简湖》发布后,有朋友问我:为什么会选择从事业单位到私营企业,从热门的大模型岗位来搞什么小众的隐私计算?

作为从业者,面向大家科普什么是数据要素流通?什么是隐私计算?还是挺有必要的。

这也是我在继去年10月份后写的第二篇关于数据交易的科普文章,自我感觉经过半年时间的实践,确实要比之前纸上谈兵了解得扎实很多(看起来在蚂蚁半年状态拉满的工作没白干)。

有兴趣的朋友可以看第一篇《探析数据交易机制,科技公司该如何进场?》

通过这篇文章,一则各位看官或许可以通过这篇文章获得新认知和新机会;二则希望可以结识对数据要素流通行业感兴趣的朋友,团队缺人

数据要素流通行业并不是凭空冒出来的,在数据被定为生产要素之前,全国各地先后挂牌成立的数据交易所有60多家,数据在场内或者场外的交易模式已经存在。

早在2022年12月,中共中央、国务院发布数据二十条,明确了数据作为新型生产要素的定位。随后各个部委和地方政府关于数据要素的政策和指导性文件开始如雨后春笋般冒出。

到了2023年10月,不过1年的时间,国家数据局挂牌成立,各级政府的政数局、大数据集团(中心)也都陆续设立开业,这标志着政府建设从信息化到数字化,有迈了一大步。

d88110c480e499a44dbe7c5d24cb348d.png

To C和To B运营有一个重要区别,To C运营关注流量事件,To B运营关注政府文件,从政策中找机会非常重要。

数据要素流通,是一个包括数据生产(或生成)、收集、传输、存储、加工、共享和使用等全过程的概念,指的是数据在不同实体或者系统之间按照一定规则和标准进行流动和交换。

fde81d9be6019be51d62415afc29a1e8.jpeg

这里有几个问题需要澄清:

1、什么是数据要素?跟我们以往讲的数据有什么区别?

2、为什么数据要素需要流通,流通的意义和价值是什么?

3、数据要素怎样才可以流通起来,以前和现在的区别是什么?

以往我们讨论的数据,范围相对宽一些:在微信公众号浏览推文留下的记录、汽车生产线建立的台账信息、社保中心的社保缴纳记录、劳动仲裁写的诉状,这些都是数据。

46e756ac39401ca99d66a61b66899a3a.png

酒店生鲜进货单也是一种数据

数据要素代表了一项信息,可能是一个数字、一个字、一段文本,或者更复杂的数据结构。按照一定规则组织起来的一组相关数据要素集合就构成了数据集,数据集可以用于数据分析、统计研究、机器学习模型的训练和测试等多种场景。

简单来说,经过筛选和处理的普通数据可以变成数据要素,一系列相关的数据要素组合可以变成数据集,数据集可以被生产生活使用,创造新的生产力。数据要素是对普通数据更进一步的抽象和组织,使数据更加标准化、易于理解和应用。

举个栗子

1、普通数据:律师针对某个侵权案例写的诉状是数据。

2、数据要素:如果我们把一系列诉状按照不同案件类型(如民事、商业、知识产权、劳动争议等)做好区分,再把案例涉及到的裁决书、上诉状、律师函、法律法规、司法解释、往期案例判例、等信息分门别类,梳理清晰,那我们就会得到一个数据要素。

3、数据集:如果我们有N个关于劳动争议案例梳理出来的数据要素组合在一起,那我们就获得了一个高质量的劳动争议法律数据集。

4、数据应用:这个数据集可以用于训练一个专门处理劳动争议的机器学习模型,用户给普通大众提供普惠的劳动争议法律咨询服务。

0504e7e7390dd6dc35001b307f432fab.png

以往土地在工业生产、农业种植、科技创新中起到的是提供物理基础和原材料等作用;而数据将在工业生产、农业种植、科技创新起到的作用是提高效率和生产质量。但目前大部分数据都是由各个主体存储或管制,没有被高效流通和利用起来,这也是限制经济发展的原因之一。

举个栗子

如果生产、物流、销售等数据可以在电商平台、商家、工厂之间共享和流通,那么温州皮革厂可能就不会倒闭,厂长也不用带着小姨子跑路。

因为他拿到了这些数据,准确预测了大众买鞋的需求,增加了孟克鞋的生产,撤换了德比鞋的生产线,往年生产的鞋子库存积压80%,今年直接0库存。不仅回款快,还不用花多余的仓储成本,节省下来的产能还可以投入到马丁靴的生产,提前锁定冬季预售订单。

数据从销售端流动到生产端,直接帮助工厂实现精细化管理,提高生产效率。

27444f1a13ead973f840c702f6183f58.jpeg

但是,通常来说,由于友商竞争、信息安全、财务考量和合规风险等方面的因素,数据只在少数的场景和主体之间流通,并未实现大范围的共享和开放。

关键在于要让数据要素流通从主体信任转向技术信任。企业以前可能会因为对方是高信誉度的主体而与其进行数据交易,但这种交易模式的规模难以扩展,信任被破坏的风险也非常高。现在,我们要让企业因为对方使用了安全可信的技术而进行数据交易,这种交易模式的规模是很容易被复制的。

在交易方式上,以往数据交易方直接通过硬盘,甚至是云盘传递数据并结算,这种方式的安全风险极高。现在,支撑数据安全可信流通的是一种叫做隐私计算的技术,它可以实现“原始数据不出域,数据可用不可见”。

27f196043b3af3b92b34f651e7f06391.jpeg

举个例子

在保险公司核保的场景,用户就医的数据需要在医院和保险公司之间流通,我们可以搭建一个保险公司与医院联合的隐私计算协作平台,分别在保险公司和医院设立隐私计算节点。

当有患者出险时,核保人员可以以密文搜索和密文查询技术,在不泄露客户具体信息的情况下完成核保需要的数据查询和匹配操作,减少了对客户隐私的侵犯。

另外,日常统计分析中,保险公司也可以利用隐私计算协作平台的数据,在不暴露客户具体数据的情况下进行统计、分析等操作,提高了数据的隐私安全性。

cf31d337d0b5f8f9e52db22ae22acd9c.png

(某隐私计算厂商产品架构图)

讲到这里,相信会有朋友好奇,什么是隐私计算?

隐私计算是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。

隐私计算最早起源于姚期智院士在1982年提出的“百万富翁”问题。

假设有两个百万富翁,他们都想知道谁更富有,但他们都想保护好自己的隐私,都不愿意让对方或者任何第三方知道自己真正拥有多少财富。那么,如何在保护好双方隐私的情况下,计算出谁更有钱呢?

f15b99143673294618a58a5a0f46b108.jpeg

这个烧脑的问题涉及这样一个矛盾,如果想比较两人谁更富有,两人似乎就必须公布自己的真实财产数据。但是,两个人又都希望保护自己的隐私,不愿让对方或者任何第三方知道自己的财富。在普通人看来,这几乎是一个无解的悖论。

这其实是一个加密学问题,可以表述为“一组互不信任的参与方在需要保护隐私信息以及没有可信第三方的前提下进行协同计算的问题”。这也被称为“多方安全计算”(Secure Multiparty Computation,SMC)问题。

姚期智院士在提出“多方安全计算”概念的同时,也提出了自己的解决方案——混淆电路(Garbled Circuit)。随着多方安全计算问题的提出,投入到多方安全计算研究的学者越来越多。除了混淆电路之外,秘密共享、同态加密等技术也开始被用来解决多方安全计算问题,隐私计算技术也逐步发展了起来。

78ea26f74040520f26fcd4ae3bc00a8b.jpeg

半诚实环境下的姚氏混淆电路协议的通信流程

目隐私计算的主流技术路线有三种:

第一种基于密码学:以MPC为代表,通过秘密共享、不经意传输、混淆电路、同态加密等专业技术来实现。近几年,其性能逐渐得到提升,在特定场景下已具有实际应用价值。

第二种基于联邦学习:通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡。

第三种基于可信硬件:将数据信任机制交给像英特尔、AMD等硬件方,且因其通用性较高且计算性能较好,受到了较多云服务商的推崇。这种通过基于硬件的可信执行环境对使用中的数据进行保护的计算也被称为机密计算。

蚂蚁集团开源的隐私计算框架-隐语 SecretFlow,是在行业内首个推出明密文混合统一技术路线的框架,同时支持联邦学习、多方安全计算、可信执行环境、可信密态等多技术路线。

号主并非技术出身,更多技术详情,推荐大家前往B站、CSDN、知乎等平台搜索更多关于“隐私计算”和“数据要素流通”的信息。

认真打个广告

如果你正在考虑一份前景光明、充满挑战,希望在行业发展早期抓住发展机会,欢迎加入蚂蚁集团隐私计算部!

目前生态运营(开发者/高校/行业/品牌市场)、算法团队(大模型)、工程团队(JAVA)、测试团队(大模型工程)均在招聘中,欢迎加入成为同事吖

(关注公众号可以联系到我)

参考文章

[1]一个写湿的程序猿.隐私计算是什么?有什么用.CSDN.

[2]澎湃新闻.对话蚂蚁集团副总裁韦韬:如何让数据流通从主体信任走向技术信任.

[3]隐语SecretFlow.第2讲:隐私计算开源助力数据要素流通丨隐私计算实训营 第2期.bilibili

[4]CHEN CONGCONG.Garbled Circuits介绍 - 3 Yao的混淆电路协议.zhihu

ab9a37562ce21a8937982b1065b454a7.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值