Introduction
LLM语言模型
- P(Ω1,Ω2,Ω3)
- N元语法模型:使用统计的方式进行语言模型的建模
- 序列到序列模型(Seq2Seq),采用编码器-解码器的结构设计
- 基于机器学习的语言模型:使用RNN模型进行语言模型的建模
使用了
自注意力机制(Self-Attention Mechanism)
跨注意力机制(Cross-Attention Mechanism)
处理输入和输出序列
这种结构使得模型能够捕捉文本中的长期依赖关系,并生成连贯、自然的文本。
常见的训练方法是使用反向传播算法(Backpropagation Algorithm)和梯度下降优化器(Gradient Descent Optimizer)来迭代地更新模型的参数