开发成功的AI和机器学习模型通常需要大量高质量的数据,但是收集这样的数据并不容易。
因为很多AI/机器学习模型所解决的业务问题场景,都涉及到需要访问敏感的客户数据,比如说个人身份信息和健康信息等等。
首先是收集和使用敏感数据会引起隐私问题,也会容易受到信息泄露的影响。因此,很多法律条例都限制了个人数据的收集和使用,严重者还会予以罚款等处罚措施。
其次,有些类型的数据收集成本很高,或者数据非常罕见。例如,为自动驾驶汽车收集代表各种现实世界道路事件的数据,可能非常昂贵。再例如,银行欺诈是较为不常见的事件例子,收集足够的数据来开发ML模型从而预测欺诈性交易是非常有难度的。
然而,与收集大型数据集相比,生成合成数据的成本低廉,并且可以支持AI/深度学习模型或软件测试,并且不会损害客户隐私。
事实上,目前合成数据的量已经相当可观了,2020年,AI 生成的合成数据已经超过了真实数据,预计到 2030 年将进一步扩大。据估计,到2024年,60%用于开发 AI 和分析项目的数据将都是合成生成的。
什么是合成数据?
顾名思义,就是人工创造出来的数据,而不是由实际事件产生的数据。它通常是在算法的帮