使用合成数据训练大模型的介绍和案例

172 篇文章 3 订阅
115 篇文章 2 订阅

开发成功的AI和机器学习模型通常需要大量高质量的数据,但是收集这样的数据并不容易。


因为很多AI/机器学习模型所解决的业务问题场景,都涉及到需要访问敏感的客户数据,比如说个人身份信息和健康信息等等。


首先是收集和使用敏感数据会引起隐私问题,也会容易受到信息泄露的影响。因此,很多法律条例都限制了个人数据的收集和使用,严重者还会予以罚款等处罚措施。


其次,有些类型的数据收集成本很高,或者数据非常罕见。例如,为自动驾驶汽车收集代表各种现实世界道路事件的数据,可能非常昂贵。再例如,银行欺诈是较为不常见的事件例子,收集足够的数据来开发ML模型从而预测欺诈性交易是非常有难度的。


然而,与收集大型数据集相比,生成合成数据的成本低廉,并且可以支持AI/深度学习模型或软件测试,并且不会损害客户隐私。


事实上,目前合成数据的量已经相当可观了,2020年,AI 生成的合成数据已经超过了真实数据,预计到 2030 年将进一步扩大。据估计,到2024年,60%用于开发 AI 和分析项目的数据将都是合成生成的。

8d5e1314a2d98f88e9855feda402c5ba.jpeg


什么是合成数据?


顾名思义,就是人工创造出来的数据,而不是由实际事件产生的数据。它通常是在算法的帮助下创建的。能够广泛的应用在各种场景中,包括作为新产品和工具的测试数据。用于模型实验以及AI模型训练。合成数据也是数据增强的一种。


为什么现在合成数据很重要?

当现有真实数据无法提供特定需求或条件时,合成数据就被生成出来,可以代替真实数据进行使用。


比如说,当隐私要求限制数据可用性或何如使用数据的时候;当测试即将发布的产品需要数据,而这些数据要么不存在,要么测试人员无法获得的时候;当机器学习算法需要训练数据,但是生成真是数据特别特别昂贵的时候。


虽然合成数据最早是在90年代开始使用的,但2010年才开始使用,直至今日,以丰富的计算能力和存储空间,使得合成数据得到更加广泛的应用。


可以从合成数据中受益的行业:

  • 汽车机器人
  • 金融服务
  • 医疗保健
  • 制造业
  • 安全行业
  • 社交媒体

可以从合成数据中受益的业务功能包括:

  • 市场营销
  • 机器学习
  • 敏捷开发
  • 人力资源

合成数据和真是数据的性能对比

衡量数据质量最直接的标准,就是数据在应用程序中使用时的有效性。机器学习是当今数据最常见的用例之一。


麻省理工学院的科学家们想要衡量,来自合成数据的机器学习模型是否能像来自真实数据的模型一样表现出色。在研究中,他们将数据科学家分为两组:一组使用合成数据,另一组使用真实数据。170%的时间里,使用合成数据的那一组能够产生与使用真实数据的那一组相当的结果。这将使合成数据比其他隐私增强技术(pet)(如数据屏蔽和匿名化)更具优势。


合成数据的好处


  • 克服实际数据使用限制:由于隐私规则或其他法规,实际数据可能存在使用限制。合成数据可以在不暴露真实数据的情况下复制真实数据的所有重要统计属性,从而消除了这个问题。
  • 创建数据来模拟尚未遇到的情况:在真实数据不存在的情况下,合成数据是唯一的解决方案。对一些常见统计问题的免疫力:这些问题可以包括项目无响应、跳过模式和其他逻辑约束。
  •  关注关系:合成数据旨在保留变量之间的多元关系,而不是单独的特定统计数据。

这些好处表明,随着我们的数据变得更加复杂和更加严密的保护,合成数据的创建和使用只会越来越多。

虽然能够生成模拟真实实物的数据,似乎是一种能够无限制的创建测试和开发场景的的方式。但是需要注意的是,任何从数据中衍生出来的合成模型都只能复制数据的特定属性,这意味着它们最终只能模拟一般趋势。


合成数据的生成和创建

在确定创建合成数据的最佳方法前,重要的是要首先考虑您的目标是拥有什么类型的合成数据。有三大类可供选择,每种都有不同的优点和缺点:

  • 完全合成:此数据不包含任何原始数据。这意味着对任何单个单元的重新识别几乎是不可能的,所有变量仍然是完全可用的。
  • 部分合成:只将敏感的数据替换为合成数据。这需要对 imputation 模型有很大的依赖。这导致模型依赖性降低,但确实意味着由于数据集中保留的真实值,可能会有一些披露。
  • 混合合成(Hybrid Synthetic):混合合成数据来源于真实数据和合成数据。在保证数据集中其他变量之间的关系和完整性的同时,调查原始数据的底层分布,形成每个数据点的最近邻居。为真实数据的每条记录选择合成数据中的一条近记录,然后将两者连接起来生成混合数据。


构建合成数据的两种通用策略包括:

  • 从分布中抽取数字:这种方法通过观察真实的统计分布和再现假数据来工作。这也可以包括生成模型的创建。
  • 基于 agent 的建模:为了在这种方法中实现合成数据,创建一个模型来解释观察到的行为,然后使用相同的模型再现随机数据。它强调理解智能体之间的相互作用对整个系统的影响。
  • 深度学习模型:变分自编码器(Variational autoencoder)和生成对抗网络(generative adversarialnetwork, GAN)模型是合成数据生成技术,通过向模型提供更多数据来提高数据效用。

合成数据的挑战

尽管合成数据有各种好处,可以简化组织的数据科学项目,但它也有局限性:

  • 异常值可能缺失:合成数据只能模拟真实世界的数据,它并不是真实世界的精确复制品。因此,合成数据可能无法覆盖原始数据所具有的一些异常值。然而,数据中的异常值可能比常规数据点更重要,正如 Nassim Nicholas Taleb 在他的书《黑天鹅》中深入解释的那样。
  • 模型的质量取决于数据源:合成数据的质量与输入数据和数据生成模型的质量高度相关。合成数据可能会反映源数据中的偏差用户接受度更具有挑战性:合成数据是一个新兴的概念,以前没有目睹其好处的用户可能不会接受它是有效的。
  • 合成数据的生成需要时间和精力:虽然合成数据比实际数据更容易创建,但合成数据也不是免费的。
  • 输出控制是必要的:特别是在复杂的数据集中,确保输出准确的最佳方法是将合成数据与真实数据或人工注释的数据进行比较。这是因为当试图在原始数据集中复制复杂性时合成数据可能会出现不一致的情况。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值