今天先进的人工智能开发仍然深深植根于 1950 年代的计算机科学哲学,包括“垃圾进,垃圾出”这句话。这句格言提醒我们,人工智能模型的好坏取决于它所训练的数据。
从高级癌症筛查到推荐一部新电影,数据科学家需要大量多样的数据集来训练 AI 模型。对于真实世界的数据,这可能是一个重大挑战。通常出于隐私原因受到保护,真实数据可能很难获得,而且来源也可能很昂贵,而且可能不像期望的那样多样化。
幸运的是,人工智能可以通过合成数据集来拯救自己——计算机生成的模拟可以确保提供充足的多样化和匿名训练数据。数据是完全匿名的,可以使用各种方法创建,例如通用对抗网络或使用更多非 AI 程序的模拟器,以确保与真实数据非常相似。通过使用合成数据集,AI 开发人员可以从更高性能和更强大的模型中受益。
数据欺骗
随着开发人员达到可用数据的极限,他们很快将需要寻找其他地方来改进他们的模型。合成数据是计算机模拟或算法生成的信息,作为现实世界数据的替代品,以填补模型需求和数据可用性之间的差距。
数据科学家有很多方法来生成合成数据。模拟和 3D 渲染是极好的起点。例如,一辆自动驾驶汽车通常通过在它在真实道路上行驶之前行驶数千英里的虚拟道路进行训练。通用对抗性网络、创建新数据的生成模型也可用于数据生产。由于这些,合成数据收集变得比以往任何时候都更易于访问和高效。
分析公司 Gartner 最近报告*,合成数据正处于从杂耍到成为未来人工智能背后的主要力量的轨道上。在一项研究中,Gartner 指出,“合成数据通过允许较小的组织在没有大量数据的情况下创建 AI 模型,从而有效地解决他们的冷启动问题,从而使竞争环境民主化。”
人工数据满足人工智能的关键需求
人工智能已经无处不在,因为它已经通过智能设备和技术融入我们的生活,涉及医疗保健、零售、