Chatgpt是基于自然语言处理技术中的深度学习模型GPT(Generative Pre-trained Transformer)构建的,其底层原理主要包括以下几点:
-
Transformer:Transformer是一个基于自注意力机制(self-attention)的神经网络架构。该架构能够在不需要使用循环神经网络和卷积神经网络的情况下,对序列级别的情感分析、机器翻译等任务进行处理。
-
Pre-training:chatgpt通过对大规模文本进行预训练,使得模型具有更好的泛化性能。chatgpt采用了大规模的语料库,这些语料库包括维基百科、新闻、小说等各种文本。
-
Fine-tuning:在经过预训练后,chatgpt将进行微调,使得模型在特定任务上能够表现更好的性能。在微调的过程中,chatgpt将会根据具体的任务选择不同的数据集,并将其与预训练模型结合起来。
-
Beam Search:Beam Search是一种搜索算法,用于在生成一个序列的情况下,根据一种权衡内部和外部选择最佳的生成。chatgpt采用Beam Search算法生成更符合语法和语义规则的响应。
-
Softmax:Softmax属于一种归一化函数,学习其输出的概率可以方便我们找到最优答案或者验算。在chatgpt中,Softmax通常用于计算每个单词的概率分布,使得该模型能够根据先前的对话,预测当前用户可能的回复。
相关文档:
谷歌发布transforme的论文https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
Transfmer 的综述 https://arxiv.org/abs/2302.07730五年时间被引用3.8万次,Transformer宇宙发展成了这样_澎湃号·湃客_澎湃新闻-The Paper