报告: 2024生成式大模型安全评估白皮书(2024年)
《2024生成式大模型安全评估白皮书》由智能算法安全重点实验室(中国科学院)、公安部第三研究所和蚂蚁安全实验室联合编写。
白皮书首先梳理了生成式大模型的发展现状,涵盖多种类型,如OpenAI GPT系列等大语言模型、DALL-E系列等文生图模型以及Suno等多模态大模型,众多企业推出的模型推动了AI在多领域的广泛应用。接着阐述了其面临的安全风险,包括伦理风险,如加剧性别、种族偏见与歧视,传播意识形态危害国家安全,引发学术与教育伦理问题,影响社会就业与人类价值;内容安全风险,如可信与恶意使用风险(制造恶意软件、传播虚假信息、违反法律法规等)、隐私风险(侵犯用户隐私信息、泄露企业机密数据)和知识产权风险(训练和应用阶段的侵权及模型自身版权保护问题);技术安全风险,如对抗样本攻击、后门攻击、Prompt注入攻击、数据投毒和越狱攻击等风险。然后介绍了安全评估方法,从伦理性、事实性、隐私性、鲁棒性等维度,通过指标衡量和攻击模型等方式评估,详细说明了各维度的评估指标、数据集及相关模型等。还通过大语言模型、文生图模型和多模态大模型的安全评估实践案例,展示了具体的评估方法、结果及启示。最后对大模型安全评估进行了展望,强调面向安全的大模型自主演进及应对评估衍生安全风险的重要性。
(方便大家直接下载,这里给大家整理好了书籍的PDF,扫码即可↓↓↓↓)
(方便大家直接下载,这里给大家整理好了书籍的PDF,扫码即可↓↓↓↓)