by Darren Cooper
合成数据(Synthetic data)是使您的业务运营平稳运行的测试数据;如果这些操作通过人工智能实现自动化,那么使用主数据管理(MDM)来确保您的决策是无偏见的,这一点非常重要。
数据生成的数据反过来又生成更多的数据。我们如何知道产生的数据是否符合业务需求策略?举例,如果一个机器人,旨在帮助我们做出明智的投资决策,或者是为我们的客户服务问题提供最佳答案,但是在处理过程中却出错了呢?
显然,从所有不同角落测试解集都很重要。随着人工智能在自动化决策过程中扮演着越来越重要的角色,确保由主数据管理(MDM)支持的机器学习操作(MLOps)从良好的可解释数据(XAI)和无偏见的数据中工作变得至关重要。
在数据投入使用之前,通常需要将其组织成数据集,以支持不同类型的测试和建模需求,以便了解应用程序、分析模型和基于人工智能的进程将如何针对这些真实世界/代表性/实验数据集执行。这就是你需要合成数据的地方。
什么是合成数据?
合成数据是通过算法生成的,以补偿真实世界的数据不够丰富,数量不满足测试需求的状态。合成数据大部分来自于生产数据;合成数据通常会忠实于源信息的统计性质,而不是精确的副本。除了具有代表性的真实世界数据外,合成数据还可能包括一些数据集,这些数据集驱动“路径”来测试特定条件下系统行为的预期,并促进预测分析。