合成数据:如何帮助企业在竞争中保持领先?

552 篇文章 2 订阅

全文共2764字,预计学习时长7分钟

图源:unsplash

有一些你没有意识到的小细节正在透露你的身份数据。2016年的一项研究发现,在对司机刹车方式进行15分钟监测后,研究人员能够以87%的准确率识别出该驾驶员。事实证明,每个司机踩刹车的方式几乎是独一无二的。

 

这种数据敏感性渗入到人们生活的方方面面,在最喜欢的咖啡馆买的那杯精致咖啡也会留下行为痕迹。各大公司也在争相掌握这些数据,从而制定新的商业战略,吸引客户办理业务。

 

这就是为什么隐私保护法,如欧洲的《通用数据保护条例》,正快速改变数据格局。这些保护法通过优先保护消费者,给予消费者所遗忘的权利,并决定谁才有权拥有和访问消费者数据。

 

这就是合成数据的神奇之处。合成数据由机器学习算法生成,这些算法摄入真实数据,训练行为模式,然后对保留原始数据集统计特征的纯人工数据进行排除。

 

这应该与较传统的匿名数据集区别开来,这些数据集实际上很容易受到再识别技术的影响。但由于合成数据本质上是人工数据,因此该隐患不会出现于合成数据中。

 

合成数据由于保护隐私这一特性,它不受同种数据保护法的约束。机器学习工程师和数据科学家可以放心地将这些合成数据用于分析和建模,因为他们知道这些数据的行为方式与真实数据相同。

 

这既保护了客户隐私,也降低了公司利用这些数据的风险,同时解除了数据的封锁,否则这些数据就会受到合规性的阻碍......往往会被冻结数月甚至数年。

 

6月底,笔者成为了Hazy公司数据合成部的一名数据科学实习生。Hazy团队构建了一个复杂的合成数据生成器和企业平台,帮助客户释放其数据的全部潜力,提高他们的创新速度,同时将风险降至最低。

 

本文将带你了解一些更详细的合成数据用例。

 

供应商评估

 

试想一下你在这样一个机构工作,该机构希望将一些业务外包出去,比如应用程序开发、测试、数据科学、分析和商业智能。

就像买车这样的大笔买卖,人们在购买前会想要试驾。这通常意味着将真实且高度敏感的数据交给第三方,这不仅存在安全风险,而且可能需要长达6到18个月的时间越过法律和采购障碍。这会非常麻烦,而这一切只是为了确定是否要与该供应商合作。

 

使用合成数据可以消除这一过程中的延迟。人工智能生成的合成数据具有足够的代表性,如果选择与该供应商合作,可以通过继续只构建人工数据来消除安全漏洞风险。

 

图源:unsplash

与第三方服务共享数据

 

与供应商评估类似,使用第三方服务(如在线应用程序或云计算资源)需要将敏感数据移交给该服务。而与第三方共享数据以改善或至少进行外部分析也同样如此。

 

由于硬件限制,企业可能无法将其所有数据保存在本地,因此需要使用在线存储平台或速度更快的云提供商。但是,合规性法则要求这些数据必须保留在本地。这可能也是公司的一大担忧,因为安全漏洞可能会让客户和自身声誉受到影响。但有了合成数据,这些都不是问题。

 

数据货币化

 

如今,许多商业模式都是完全基于用户群数据货币化。如果你没有为产品付费,那么很可能是这种情况。公司可以收集数据,进行分析,并将任何想法卖给既得利益的外部企业。一些组织出售原始数据,以便外部企业能够自己进行细致分析,但这会带来更多合规性问题,而且这些数据往往会被认为过于敏感而无法这么做。

 

有了合成数据,合规性和风险就不再是问题——随之而来的是这些数据的价值以及从中产生价值的速度都大幅提升,公司甚至可以产生全新的收入来源。毕竟,大多数数据的价值不是个人信息,而是从中获得的想法。

 

另外,合成数据比真实数据更灵活,因为合成数据可以无限自动化、放大和扩充,从而带来更多的获利机会。

 

图源:unsplash

跨组织数据可移植性

 

数据传输的限制不仅限于与外部公司的交易。在一个组织中,数据在部门之间传递之前,也必须要满足许多合规性标准,而这往往需要数周时间。如果涉及到跨地域和跨法规的数据共享,时间则会更长。

 

如果机构能创建一个安全的合成数据集,那就说明它们有集中的数据存储库(通常称为数据池),这些存储库可以通过基于角色的简单访问控制来进行管理。例如,银行在其客户的交易记录中有特别丰富的数据。通过汇集这些数据的合成孪生数据,就可以在多个部门和跨境数据科学家之间安全共享该数据。

 

这种前所未有的协作水平可以用于训练更大的数据集来挖掘出更多模式,从而改进洗钱和欺诈检测算法。内部共享信息实现了自由,企业就可以加快创新并且更快地对新数据采取行动——无论是个性化营销还是国际犯罪。与那些具有更多传统数据生命周期和人为创新障碍的竞争对手相比,这使企业具有显著优势。

 

数据保留

 

此外,相关法规的制定也限制了公司保存个人数据的时间,从而使长期分析(例如尝试检测几年的季节性变化)变得非常困难。

 

需牢记,合成数据并不受相同隐私保护法的约束——尽管其保留了客户的使用模式,但它完全是人工数据。由于不存在再识别的风险,公司可以自由选择其合成数据的保留时间,并可以在以后任何时候重新使用这些数据并进行分析,而这些分析是之前没有进行过的,或是在数据收集时因技术不给力而未进行的。

 

模拟不可预见事件

 

图源:unsplash

有所准备通常比未加思索要好。越来越多的公司希望利用数据来为不可预见的情况做好准备,而如今时代,这种不可预见的情况从未像现在这样多。

 

由于条件合成数据的生成,现在能够提前做好准备。可以获取“正常”或先例数据集,在生成器中添加条件,并输出一个代表以前从未发生过事件的合成数据集,从而可以分析、建模并为以后此类情况做好准备。

 

条件合成数据用例范围可以包括预测客户行为从而判断是否会出现第二波疫情,某种癌症转移的概率,以及全球热化的影响等。更广泛地说,它可以将一个国家的客户行为与开放的公共数据源相结合,从而准确预测产品或服务在一个新地方的效果。

 

在过去的两年中创建了人们全球90%的数据,每天有2.5*10^18字节的新数据被捕获。数据经济已经是一个高度规范的领域,且根据目前的数据轨迹来看,随着各国政府和监管机构争相追查大量收集的数据,数据经济可能会变得更加规范。

 

合成数据无疑会成为企业的竞争优势之一。在开发新产品、与第三方建立新的合作伙伴关系、甚至产生全新收入来源等方面,这都会让企业提高效率,同时大大降低风险。

一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值