前言
大模型领域的技术和模型日新月异。如何读懂一个模型,需要先理解语料、算力以及模型参数之间的关系,例如,如何预估大模型的运算所需要的参数,如何预估大模型的训练时长,一定规模参数的大模型喂入多少量级的语料才是最优,或者有没有在某种情况下模型越大任务的效率越差。
大模型的顿悟
大模型和人一样,需要不断地“参禅”,经历不同的事情且从其中获取感知,破解个人的思维瓶颈之后才会迎来“顿悟”。
请注意上面的红线,红线的意思是随机猜测。可以从图中发现在训练的算力达到一定层度的时候,准确度才会扭头向上,这也就是所谓的大模型的顿悟时刻。而这个顿悟临界