LLM 研究方向(二): LLM Alignment--RLHF、DPO

feedback_data = [

{"text1": "生成的文本1", "text2": "生成的文本2", "preference": 1}, # preference=1表示text1更好

{"text1": "生成的文本3", "text2": "生成的文本4", "preference": 2}, # preference=2表示text2更好]

2. 训练偏好模型 preference model。根据人类偏好数据训练好一个模型，使其能够预测文本地偏好。

for feedback in feedback_data:

train_texts.append(feedback["text1"]) train_labels.append(1iffeedback["preference"] == 1 else 0)

train_texts.append(feedback["text2"]) train_labels.append(0iffeedback["preference"] == 1 else 1)

3. 直接优化生成模型。通过优化生成模型的输出，使其更符合人类偏好。比如：GPT-2 model根据模型的输入来获取模型输出outputs，outputs包含了以下几个主要部分：

1) logits：模型生成的预测值，即predict text embeddings

2) loss：如果训练时传递了标签labels index，则outputs会包含损失值，model可以根据label index指定的label text来计算loss。

3) Preference label指定使用哪个label loss。如果训练数据label index和人工反馈的preference label一致，则现有loss=loss1-loss2不变，否则就反过来loss=loss2-loss1。总之，就是要让model再次微调，让生成的文本更靠近人工反馈文本对中期望的那一个！

3.3 TDPO (token-level direct preference optimization)

2024，Token-level direct preference optimization，核心是直接优化偏好preference。

TDPO算法主要思想：

1. 直接优化偏好 (direct preference optimization)

1) 评估指标设计。可以用基于语义相似性指标BLUE、ROUGH等，评估生成文本与上下文本语境之间的相似度和偏好程度。

2) 奖励机制设计。设计一个基于pre-trained model的奖励函数，该函数评估生成文本在语义和语法上的流畅性和准确性！

3) 多任务学习。将优化目标文本偏好的任务作为一个附加任务(auxiliary task)，即生成任务、优化任务(优化目标文本与目标文本的相似性)共用share一个model结果。即在训练生成模型GPT时，同时再训练一个优化任务，可以结合不用的loss funciton组合。

2. token级别优化。在TDPO中，优化过程是在生成文本的每个词token级别进行的。这意味着模型在生成每个词时，考虑到整体上下文的同时，也要保持每个词与目标文本的直接关系优化。then，how to do that？

1) 设计一个损失函数，不仅要考虑生成文本整体与目标文本之间的距离(如cross-entropy)，还要考虑每个词token级别的对应关系：序列级别的损失函数 + 逐词损失函数。比如，可以用序列级别的BLUE或ROUGE分数作为整体损失的一部分，同时还使用交叉熵来优化每个词的生成。

2) 对抗性训练，确保生成文本在句法和语义上与目标文本尽可能接近。引入一个判别器discriminator，用于评估生成本本的真实性和接近度。

3) 逐词注意力机制。

4. 扩展1: 多模态对齐

4.1 MmAP

AAAI 2024，MmAP: Multi-Modal Alignment Prompt for Cross-Domain Multi-Task Learning，跨域多任务学习的多模态对齐提示。

1. 视觉语言模型CLIP(Contrastive Language-Image Pretraining)，通过对比学习，将图像和文本嵌入到一个共同的特征空间中，使得相关联的图像和文本对pair在该空间中距离较近，而不相关的图像和文本对距离较远。它包括两个主要部分：图像编码器(如ResNet、Vision Transformer(ViT)提取图像特征)、文本编码器(GPT-2)提取文本特征。

2. 通过对比学习loss，最大化正确image embedding和text embedding之间的余弦相似度，最小化错误图文对之间的相似度。