NLU项目开发流程:
训练时间计算:
一个3000亿token的训练数据集,使用英伟达的V100 GPU进行GPT-3模型估计耗时为355年。
V100与A100的算力比较:
1块A100的训练速度是1块V100的2.2倍;使用混合精度时,前者则是后者的1.6倍。
在语言模型训练中,1块A100的训练速度是1块V100的3.4倍;使用混合精度时,前者则是后者的2.6倍。
分别用8块A100与8块V100,进行32位训练:前者速度能够达到后者的3.5倍。
对于大小模型的使用场景对比:
一般来说,模型越大其在任务中的表现越好,而大模型适用于不受设备、场地、资金的限制,使得其不太亲民,往往是资金技术雄厚的大公司在进行研究。与之相较的小模型,更受到人们欢迎,因为其占用内存较小、易于调试、适用场景更为专一,如果一个小模型的测试准确率够高,那么其将会是非常有用的。
模型纠错存在的问题:
如果一个模型其是基于规则开发的,那么其出现错误的结果往往能对应找到一个错误的规则。而目前是模型都是基于机器学习而非规则开发,使得对于模型的错误输出的修复是存在溯错困难的。
专业数值计算:
GPT-4只能处理包含最多8192个token,单行倍距的一页能容纳大约512个token,其相当于能处理大约16页单行倍距的文本量。
目前有的小模型对于输出的文本长度有限制,大多在512或1024,而要想对输入文本的长度没有限制,就可以考虑Longformer,时间上计算,由于涉及到注意力机制,故时间复杂度与文本长度的增加呈现平方增长的。