模型训练不再数据顾虑，微软研究团队使用【合成数据】来训练模型

AI 研习所

于 2024-01-03 18:02:13 发布

阅读量523

点赞数 8

分类专栏： AI AIGC 人工智能文章标签： AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/specssss/article/details/135369892

版权

微软研究团队最新成果：他们已经开始使用【合成数据】来训练AI模型了。

微软使用大语言模型生成了近100种语言、数十万个文本嵌入任务的“模拟”文本数据，然后用这些数据来训练 AI 。

这大幅度降低了训练成本，提高了效率，同时还减少了模型的偏见。

背景知识

要让计算机理解和处理人类的语言，我们需要把语言（比如句子或段落）转换成计算机能理解的形式，这就是所谓的“文本嵌入”。文本嵌入就是把人类语言翻译成计算机的语言。

传统上，要让计算机做好这件事，我们需要给它看很多很多的例子（这就是所谓的训练数据），让它学习怎样把文本转换成它能理解的形式。但这个过程很复杂，需要很多数据和很长时间。

微软的这份论文提出了一种新方法：“合成数据”。

他们使用大语言模型（LLM）来生成了很多不同语言的“模拟”文本数据，然后用这些数据来训练 AI 理解人类语言。这样做的好处是，他们不需要真实的数据就能训练出很好的文本嵌入模型，而且这个过程比传统方法更快、更高效。

如何生成合成数据

1、使用大语言模型：首先，他们利用了大型语言模型，如GPT-4或类似的高级模型。这些模型已经通过大量的文本数据进行了预训练，因此具有强大的语言生成能力。

2、任务定义和提示设计：研究团队定义了一系列文本嵌入任务ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。