模型训练不再数据顾虑,微软研究团队使用【合成数据】来训练模型


e99716b3b03985df52c8e29cd33f9c08.jpeg

微软研究团队最新成果:他们已经开始使用【合成数据】来训练AI模型了。

微软使用大语言模型生成了近100种语言、数十万个文本嵌入任务的“模拟”文本数据,然后用这些数据来训练 AI 。

这大幅度降低了训练成本,提高了效率,同时还减少了模型的偏见。

背景知识

要让计算机理解和处理人类的语言,我们需要把语言(比如句子或段落)转换成计算机能理解的形式,这就是所谓的“文本嵌入”。文本嵌入就是把人类语言翻译成计算机的语言。

传统上,要让计算机做好这件事,我们需要给它看很多很多的例子(这就是所谓的训练数据),让它学习怎样把文本转换成它能理解的形式。但这个过程很复杂,需要很多数据和很长时间。

微软的这份论文提出了一种新方法:“合成数据”。

他们使用大语言模型(LLM)来生成了很多不同语言的“模拟”文本数据,然后用这些数据来训练 AI 理解人类语言。这样做的好处是,他们不需要真实的数据就能训练出很好的文本嵌入模型,而且这个过程比传统方法更快、更高效。

如何生成合成数据

1、使用大语言模型:首先,他们利用了大型语言模型,如GPT-4或类似的高级模型。这些模型已经通过大量的文本数据进行了预训练,因此具有强大的语言生成能力。

2、任务定义和提示设计:研究团队定义了一系列文本嵌入任务ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值