iclr 2024 spotlight reviewer 评分 5668
1 intro
- 由大型语言模型驱动的对话代理(ChatGPT,Claude 2,Bard,Bing Chat)
- 他们的开发流程通常包括三个主要阶段
- 预训练语言模型
- 在被称为“指令调优”数据集上进行微调,以使模型的行为与人类偏好保持一致
- 可选地应用基于人类反馈的强化学习(RLHF),以进一步优化模型的响应
- 虽然基础模型训练数据丰富且容易获得,但关键的指令调优数据集往往是专有的,这导致希望推进该领域的研究人员在可访问性上存在差距
- 他们的开发流程通常包括三个主要阶段
- 现有的用户-聊天机器人互动数据集主要有两种类型
- 自然使用案例
- 包括实际用户互动,大多是专有的
- 专家策划的集合
- 研究人员通常不得不依赖专家策划的数据集
- 这些数据集在分布上通常与现实世界的互动不同,而且通常限于单轮对话
- 自然使用案例
- 为了弥补这一差距,本文介绍了(INTHE)WILDCHAT数据集
- 一个全面的多轮、多语种数据集
- 包括通过ChatGPT和GPT-4 API支持的聊天机器人服务收集的570,000次完整对话,涵盖超过150万次互动轮次
- WILDCHAT服务于多个研究目的