一、模型
-
Transformer:Transformer 是一种基于自注意力机制(self-attention mechanism)的深度学习模型,最初是为了处理序列到序列(sequence-to-sequence)的任务,比如机器翻译。后续这些模型都是基于Transformer 开发的。
-
GPT(GPT-3、GPT-3.5、GPT-4):全称为Generative Pre-training Transformer,是OpenAI开发的一种基于Transformer的大规模自然语言生成模型。GPT模型采用了自监督学习的方式,首先在大量的无标签文本数据上进行预训练,然后在特定任务的数据上进行微调。
-
BERT:由Google开发的一种预训练语言模型,它在自然语言处理领域取得了很大的成功。BERT有340M和1.1B两个版本,其中1.1B版本有33亿个参数。
-
RoBERTa:Facebook AI Research开发的一种预训练语言模型,它在自然语言处理领域取得了很大的成功。RoBERTa有125M、250M、500M、1.5B和2.7B五个版本,其中2.7B版本有27亿个参数。
-
T5:由Google开发的一种预训练语言模型,它在自然语言处理领域取得了很大的成功。T5有11B和22B