自然语言理解——关于模型开发流程、相关量化和比较

NLU项目开发流程:

 训练时间计算:

一个3000亿token的训练数据集,使用英伟达的V100 GPU进行GPT-3模型估计耗时为355年。

V100与A100的算力比较:

1块A100的训练速度是1块V100的2.2倍;使用混合精度时,前者则是后者的1.6倍。

在语言模型训练中,1块A100的训练速度是1块V100的3.4倍;使用混合精度时,前者则是后者的2.6倍。

分别用8块A100与8块V100,进行32位训练:前者速度能够达到后者的3.5倍。

 对于大小模型的使用场景对比:

一般来说,模型越大其在任务中的表现越好,而大模型适用于不受设备、场地、资金的限制,使得其不太亲民,往往是资金技术雄厚的大公司在进行研究。与之相较的小模型,更受到人们欢迎,因为其占用内存较小、易于调试、适用场景更为专一,如果一个小模型的测试准确率够高,那么其将会是非常有用的。

模型纠错存在的问题:

如果一个模型其是基于规则开发的,那么其出现错误的结果往往能对应找到一个错误的规则。而目前是模型都是基于机器学习而非规则开发,使得对于模型的错误输出的修复是存在溯错困难的。

 专业数值计算:

GPT-4只能处理包含最多8192个token,单行倍距的一页能容纳大约512个token,其相当于能处理大约16页单行倍距的文本量。

目前有的小模型对于输出的文本长度有限制,大多在512或1024,而要想对输入文本的长度没有限制,就可以考虑Longformer,时间上计算,由于涉及到注意力机制,故时间复杂度与文本长度的增加呈现平方增长的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值