
【大模型训练集RLHF,SFT,DPO,多模态的构建格式以及示例解析】
解释:在指令监督微调时,instruction 列对应的内容会与 input 列对应的内容拼接后作为人类指令,即人类指令为 instruction
input。Sharegpt 格式的偏好数据集同样需要在 chosen 列中提供更优的消息,并在 rejected 列中提供更差的消息。role: 指示说话者的角色,可能是“human”(人类用户)或“assistant”(模型助手)。结构: 同样是一个对象,包含角色和文本,表明这是一个被拒绝的输出。描述: 表示在给定上下文中,人类不选择的助手响应。
input。Sharegpt 格式的偏好数据集同样需要在 chosen 列中提供更优的消息,并在 rejected 列中提供更差的消息。role: 指示说话者的角色,可能是“human”(人类用户)或“assistant”(模型助手)。结构: 同样是一个对象,包含角色和文本,表明这是一个被拒绝的输出。描述: 表示在给定上下文中,人类不选择的助手响应。























