微软研究团队最新成果:他们已经开始使用【合成数据】来训练AI模型,未来模型训练就没有版权和训练数据顾虑了。
论文:https://arxiv.org/abs/2401.00368
PDF:https://arxiv.org/pdf/2401.00368.pdf
更多消息:AI人工智能行业动态,aigc应用领域资讯
微软研究团队最新研究成果表明,他们已经成功运用合成数据进行AI模型训练,成为推动人工智能领域变革的领军者之一。通过利用大型语言模型(LLM),如GPT-4等,他们生成了近100种语言、数十万个文本嵌入任务的“模拟”文本数据,用以训练AI模型。这一革新方法大幅度降低了训练成本,提高了效率,并成功减少了模型的偏见。
传统上,为了让计算机理解和处理人类语言,大量的真实训练数据是必不可少的。然而,微软的新方法中引入了“合成数据”的概念,通过指导语言模型生成各种任务相关的模拟文本,不再依赖于真实数据。这一创新过程包括使用大语言模型生成任务定义和提示,产生合成数据,保证多样性和覆盖率,以及经过数据清洗和格式化。这使得模型在覆盖范围广、减少偏见、灵活性和可扩展性、成本效率、快速迭代和改进等方面都表现出显著优势。
实验结果显示,微软研究团队成功生成了大约50万个合成数据示例,其中包含15万个独特的指令,覆盖了93种不同的语言。在多语言的MIRACL数据集上,使用合成数据训练的模型表现出色,验证了这一方法在多语言、多任务场景中的实际效果。这种创新方法的成功应用为AI领域带来了新的可能性,同时也突显了合成数据在推动人工智能技术发展方面的重要作用。