目录
从本节开始,我们将详细介绍一下 ChatGPT 的模型结构和训练方式,其中必然会涉及到一些公式和示意图。为了方便读者理解,一方面,我对公式尽量做了缩减,并以举例的形式进行解释;另一方面,我经常以打比方的方式,让大家直观地感受公式所蕴含的原理。当然,如果对于理解公式确实十分头疼,可以重点阅读文字部分,对公式有个定性的认识也是 OK 的。
语言模型是什么?
ChatGPT 是一个语言模型,是属于 NLP 领域的概念。那什么是语言模型呢?我们来举几个例子解释一下。
例1:请各位做一个完形填空:掘金社区是一个______的技术交流平台。
在这个例子里,上述的空格处应该填什么字呢?中文汉字总共有上万个,空格里填任何一个字,都算是完成了填这个动作,我们真正关心的,是填什么字才能让文字读起来通顺。
有的人觉得毫无疑问应该填“便捷”,而有的人觉得应该是“实用”,事实上填这两种答案都是正确的,可以让文字读起来通顺。再举一个例子:
例2:请补全这条语句:掘金社区是一个便捷的技术交流______
有的人觉得,应该填写“网站”,有的人觉得应该填写“