《大语言模型系统的风险分类、缓解与评估基准》概述
由Tianyu Cui等人撰写,大语言模型(LLMs)在解决各种自然语言处理任务方面具有强大能力。然而,大语言模型系统的安全与安保问题已成为其广泛应用的主要障碍。许多研究广泛探讨了大语言模型系统中的风险,并制定了相应的缓解策略。OpenAI、谷歌、Meta和Anthropic等前沿企业也在负责任的大语言模型方面付出了诸多努力。因此,越来越有必要整理现有研究,并为该领域建立全面的分类体系。论文深入研究了大语言模型系统的四个关键模块,包括用于接收提示的输入模块、在大量语料上训练的语言模型、用于开发和部署的工具链模块以及用于输出大语言模型生成内容的输出模块。基于此,提出了一个全面的分类法,系统地分析了与大语言模型系统每个模块相关的潜在风险,并讨论了相应的缓解策略。此外,回顾了常用的基准测试,旨在促进大语言模型系统的风险评估。作者希望能够帮助大语言模型的参与者采用系统的视角来构建他们负责任的大语言模型系统。
一、引言
1.1 研究背景
- 大语言模型(LLMs)在自然语言处理(NLP)领域取得巨大成功,如 ChatGPT 等模型在复杂任务中表现出色。
- 但 LLMs 存在安全与隐私问题,如 ChatGPT 曾因漏洞导致用户聊天记录泄露,模型可能生成有害、不真实内容,引发社会关注。
1.2 研究目的
- 提出面向模块的风险分类法,将 LLM 系统风险归为输入、语言模型、工具链、输出模块相关风险,分析风险成因与缓解策略,涵盖 12 种具体风险和 44 个子分类风险主题。
- 综述风险评估基准,涵盖鲁棒性、真实性、伦理、偏见等方面,介绍相关数据集与评估方法及结果,助于全面评估 LLMs。
1.3 研究意义
- 助开发者与研究者深入理解 LLM 系统风险,为构建可靠系统提供指导,从学术与工业角度推动负责任的 LLM 系统发展。
二、大语言模型系统架构
2.1 LLM 系统模块
- 输入模块:接收并预处理用户输入提示,包含接收器与算法策略,过滤或限制请求。
- 语言模型模块:是系统核心,基于大量