大模型 | 快手多模态理解岗面试题7道(含答案解析)

大模型本地部署_

已于 2024-09-11 14:28:09 修改

阅读量1.9k

点赞数 23

文章标签：人工智能大模型 ai AI大模型大模型面试多模态面试

于 2024-08-29 20:50:10 首次发布

本文链接：https://blog.csdn.net/Androiddddd/article/details/141688153

版权

DPO 和 PPO

PPO (Proximal Policy Optimization): PPO 是一种强化学习算法，采用了策略优化方法。它的目标是通过限制策略更新的幅度来避免策略剧烈变化，减小策略崩溃的风险。具体做法是通过剪裁损失函数，确保策略变化在一个较小的范围内，从而提高训练的稳定性。PPO 的核心是引入了一种近端目标函数，利用优势函数更新策略，兼顾了策略的探索和收敛。
DPO (Direct Policy Optimization): DPO 是一种最近提出的算法，旨在简化传统强化学习中的策略优化问题。它的主要思想是通过直接最小化目标函数来优化策略，而不是像 PPO 一样通过对数比率和剪裁损失函数来进行策略更新。DPO 采用了更直接的优化方式，简化了策略更新的过程。

区别：

梯度爆炸或消失: 由于 DPO 更直接地优化策略目标函数，可能导致策略更新过快或过剧，从而导致梯度爆炸或消失的问题。

收敛性问题: DPO 没有像 PPO 那样的机制来限制策略更新，因此可能在训练过程中出现不稳定或策略崩溃的情况。

探索和利用之间的平衡问题: 由于 DPO 直接最小化目标函数，可能会倾向于过早地进行利用，导致探索不足，从而无法找到全局最优解。

Transformer 是一种基于自注意力机制的深度学习模型，广泛应用于自然语言处理任务中。其核心结构包括：

Encoder 和 Decoder: Encoder 负责对输入序列进行编码，生成一组高维特征表示；Decoder 则根据这些表示和目标序列进行解码，生成最终输出。
多头自注意力机制 (Multi-Head Self-Attention): 通过多个注意力头并行处理序列数据，捕捉不同位置之间的依赖关系。
前馈神经网络 (Feed-Forward Network, FFN): 在注意力层后面，通过两层全连接网络对每个位置进行独立的非线性变换。
残差连接和 LayerNorm: 通过残差连接和 LayerNorm，避免梯度消失问题，同时加快模型的收敛速度。

Transformer 由于没有循环结构，无法捕捉序列中的位置信息，因此需要位置编码 (Positional Encoding)。位置编码有两种主要方式：

绝对位置编码 (APE): 通过固定的位置编码向量为序列中的每个位置赋予唯一标识。
相对位置编码 (ROPE, Relative Positional Encoding): 相对位置编码可以动态地捕捉序列中的相对位置信息，使模型具有更好的外推能力。在处理长度变化的序列时，ROPE 相比 APE 表现更优，因其不依赖于绝对位置，能更好地处理序列中元素之间的相对关系。