导言
真实数据通常是在真实的人(例如:真实的人类、工作人员、劳动人员等)的生活互动中通过特定的数据采集业务流程收集的,而合成数据(Synthetic Data)完全是由算法生成的。合成生成的数据由全新的人工数据点组成,与原始数据没有一对一的关系,没有一个合成数据点可以追溯到或反向工程到原始数据。 因此,合成数据**不受** **GDPR** **等隐私法规的约束**,可作为解决和克服数据隐私挑战的解决方案,并应用于数据安全开放、系统调试和模型调优等领域。在本文中,我们将从生成模型讲起,了解合成数据的现状、挑战和现有解决方案。
背景
当前,大型语言模型(LLMs)已经在各个领域取得了令人瞩目的成果,尤其在图像生成、文本生成、音频合成等领域发挥了巨大作用,各个厂商也在着手开发各自领域的大模型。以当前最火爆的大模型ChatGPT为例子,它的强大之处在于它能够生成高质量的文本,同时还能理解人类语言的各种复杂性和微妙之处。然而,如此强大的模型也仍然存在一些局限性,例如:生成有内在关联关系的表格数据,ChatGPT这样的模型,难以彻底洞察不同特征(列)之间的内在联系,并在生成的数据中体现这种内在联系,所以此类语言模型形成高质量的表格数据。同时对于公司而言,难以轻量化地快速部署好一个大型语言模型进行数据生成任务。
对于生成表格数据而言,主要需要克服以下几个挑战:
- 快速:由于合成数据可能在快速响应的需求中使用,根据业务需求在一定的时间内,快速生成高质量合成数据;
- 高质量:由于合成数据通常会被用于数据开放、模型调优等场景,此类场景对数据的质量有较高要求,高质量的合成数据可以在不泄漏隐私信息的前提下,顺利推进业务的实现;
- 隐私保护:合成数据不应携带任何可能的私人信息或隐私信息,任何人不能从数据中提取或者推知有关合成数据本身之外的隐私信息或敏感信息,当前部分LLM模型则存在此类隐患(这里需要一个参考资料);
- 轻量化部署与运行:在业务场景中,供合成数据生成运行的硬件资源通常是有限的,组件应满足轻量化的部署和运行能力,以便满足业务需求。
而现在看来,满足以上几个点的合成数据能力是非常关键且必要,但当前的大型语言模型尚不能完全满足。
合成数据的应用场景
数据发布和共享
数据安全公开是一种保障数据安全的重要策略,其主要目标是确保数据在共享、发布或公开披露时不会泄露敏感或机密信息。而使用高质量合成数据代替真实数据进行数据发布和共享,保留原始数据分布特征的同时,防止原始数据中的隐私泄露,是一种有效的方法。
在该应用场景中,使用合成数据还具有以下优点:
- 保护敏感信息:通过使用仿真数据和信息隐藏技术,可以有效地保护敏感信息不被泄露,防止因为数据泄露带来的损失。
- 提高数据可用性:这种方法允许数据在保持安全的同时被广泛使用,提高了数据的可用性。对于需要进行数据分析和研究的人员来说,他们可以在没有敏感信息的情况下使用这些数据,从而做出更准确的分析和更有价值的研究。
- 遵守数据安全法规:通过这种方法,可以确保公开的数据符合各种数据安全和隐私法规的要求,从而避免因违反法规而带来的法律风险。