探索大模型的安全边界，首届大模型安全研讨会在新加坡成功举办-CSDN博客

首届大模型安全研讨会（LARGE MODEL SAFETY WORKSHOP 2024）于2024年7月2日在新加坡卡尔顿酒店（Carlton Hotel Singapore）成功举办。本次研讨会由新加坡管理大学孙军教授主办，吸引了来自全球的专家学者、业界领袖和政府官员参与，共同探讨大模型技术在安全性问题上的挑战及其未来发展方向。

开幕致辞——孙军教授, 新加坡管理大学

研讨会联合主席——Gerry Kian Woon Chng，新加坡人工智能技术委员会（AITC）

本次研讨会是亚太地区难得一见的大模型安全峰会，成功吸引了来自世界各地的 160 余名参与者，包括中国、美国、澳大利亚和新加坡的顶尖学者、行业专家、政府官员及相关领域的研究人员，许多嘉宾甚至专程前来参加此次盛会。

通过与会者的热情参与和深入交流，会议展示了大模型安全领域的最新研究成果和前沿技术，涵盖了大模型面临的新型攻击、内容和数据安全、风险缓解策略、道德准则，以及人工智能的治理和合规认证等关键议题。本次研讨会的成功举办不仅标志着在亚洲范围内对大模型安全的关注和认识又上了一个新的台阶，也为推动全球大模型技术的安全发展做出重要贡献。

全场观众

现场观众

现场观众提问

本次研讨会汇聚了来自全球顶尖高校的多位杰出学者，以及新加坡政府部门的高层领导和全球领先认证企业的技术专家，他们共同带来了十场富有洞察力的主题演讲：

Prateek Mittal, 普林斯顿大学

Understanding Security Risks of Large Language Models（演讲者：Prateek Mittal，普林斯顿大学）：该演讲深入探讨了人工智能安全对齐问题，分析了随着人工智能模型进步所出现的包括歧视、恶意生成和欺骗等安全风险。在政策层面，已经出台了多项旨在提升人工智能安全与可信度的条令，从而进一步加强了对人工智能安全性的关注。目前，人工智能安全面临的挑战包括理解安全本质、量化安全问题及风险，并提高系统的整体安全性。案例研究显示，对齐后的大语言模型能够拒绝执行有害指令，但是对抗样本攻击仍能破坏这种对齐，使模型执行不良指令。演讲者特别讨论了一种通用的越狱攻击策略，即使用一个小型的有害内容语料库进行少样本学习，让模型对语料库中的数据赋予更高的概率，从而生成能够破解模型的对抗样本。此外，演讲者还探讨了微调大语言模型可能导致对齐失效的情况，并深入分析了安全对齐易受脆弱性影响的原因，指出对齐往往仅适应生成分布的前几个 Token，以引发模型的拒绝响应。最后，演讲者对未来人工智能安全性研究提出了展望，强调了未来研究中需要解决的理解、设计、评估和增强人工智能安全性的关键挑战。

Bo Li, 芝加哥大学

Risk Assessment, Safety Alignment, and Guardrails for Generative Models（演讲者：Bo Li，芝加哥大学）：该演讲深入探讨了生成式模型在风险评估、安全增强和防护措施方面的应用。随着生成式模型的广泛使用，它们产生偏见或敏感内容的风险逐渐显现。演讲者提出了一个统一的人工智能安全框架，包括首先进行风险评估，然后通过修改模型架构或微调基础模型等手段进行修复，或引入防护模型等第三方模型。此外，演讲介绍了 “DecodingTrust”，这是一个用户驱动的综合安全和可信度评估平台，旨在成为首个全面评估大语言模型可信性的平台。该平台通过生成挑战性数据/提示，从多个角度评估和比较大语言模型的风险，如毒性、对抗鲁棒性和隐私问题。另一个平台 “HarmBench” 提供了一个标准化的框架，用于自动化红队测试和鲁棒的拒绝响应，使得可以清晰比较美国、欧盟和中国在人工智能法规上的不同重点。在讨论生成风险时，演讲者探讨了如何在大语言模型或检索增强生成中提供生成风险的认证，并设计了一个 conformal 风险控制控制器。研究结果表明，conformal 风险与经验风险高度一致。最后，演讲还介绍了一些低成本的解决方案，如 “RigorLLM”：这是一个针对不良内容设计的大语言模型韧性防护系统，它通过数据增强、韧性优化、测试时增强和聚合等方法，有效提升了模型对越狱攻击的防护能力。

Pang Wei Koh, 华盛顿大学

Reliable and Responsible Data Use: Retrieval-based Models and Synthetic Data （演讲者：Pang Wei Koh，华盛顿大学）：演讲者首先介绍了如何将推理时可用的数据量扩展到基于检索的语言模型，以促进数据的负责任使用并提升各种任务的性能。这一方法表明，推理时使用的数据（而不仅仅是训练时的数据），应被视为扩展语言模型能力的新维度。随后，演讲者分析了使用真实数据训练的生成模型所产生的合成数据存在的问题，并探讨了在何种情况下使用合成数据进行训练可能带来益处。最后，演讲者指出，虽然许多任务本质上是动态交互的，现有的数据基准却大多是静态的。因此，他提出了共形推理的概念——与其预测单一的标签，不如预测一组潜在的标签，并确保真实标签在这一预测集中得到覆盖，这种方法为动态交互提供了更灵活的数据处理方式。

Neil Gong, 杜克大学

Safe and Robust Generative AI（演讲者：Neil Gong，杜克大学）：演讲者首先指出，生成式人工智能引发了多个道德和法律问题，包括有害内容的生成以及虚假和误导性信息的扩散。为了应对这些挑战，内容审核的措施被设计来阻止生成式人工智能模型产生有害内容以及检测人工智能生成的内容。具体方法包括：一是利用基于强化学习的对抗性提示搜索技术预防有害内容的生成；二是采用基于水印技术的方法来监测人工智能生成的图像。随后，演讲者深入讨论了提示注入攻击及其潜在原因，提出了一套对提示注入攻击及其防御措施进行形式化和基准化的方法。

Sewon Min, 加州大学伯克利分校

Distributed Language Models: Isolating Data Risks（演讲者：Sewon Min，加州大学伯克利分校）：在该演讲中，演讲者首先讨论了大语言模型的训练数据集面临版权和数据所有权同意的问题。接着，介绍了一个新的开放许可语料库（OLC），包含了 2280 亿个公共域令牌和授权文本，但因覆盖域有限，仅使用 OLC 训练的模型性能可能会受到影响。演讲者随后提出了一种新的语言模型 SILO，通过将参数化大语言模型与可修改的非参数数据存储（只在推理时使用）结合，从而允许在避免直接训练受版权保护数据的同时利用这些数据，并为数据所有者提供退出机制。最后，演讲者概述了“分布式模型”方案，这是一种将不同模型组件分配以使用具有不同限制级别的数据（如公共域、受版权保护或不可发布的数据）的方法，各组件根据其功能（例如用于训练、作为数据存储或其他用途）被适当地配置，旨在优化数据的利用效率，并且同时遵守相关法律和规定。

Ting Wang, 纽约州立大学石溪分校

Robustifying Large Models against Malicious Fine-tuning Attacks（演讲者：Ting Wang，纽约州立大学石溪分校）：演讲者首先概述了大语言模型对齐的三个主要步骤以及当前面临的常见安全攻击类型。接着，演讲者重点讨论了恶意微调攻击的问题，即通过利用恶意样本对大语言模型进行微调，可以轻易地破坏模型原有的安全措施，例如安全护栏和校准机制。此外，演讲者还介绍了他们正在进行的研究，旨在理解并减轻恶意微调攻击的威胁。具体来说，对于在线环境，演讲者提出了一种基于恶意样本激活特性的有效过滤方法。而在离线环境中，演讲者通过干扰有害知识在模型学习过程中的传播来阻止恶意微调攻击的发生。

Mohan Kankanhalli, 新加坡国立大学

Safety and Trustworthiness Challenges for LLMs（演讲者：Mohan Kankanhalli，新加坡国立大学）：演讲者详细介绍了他在大语言模型安全领域的两项最新研究成果。第一项研究名为 PromptAttack，这是一种基于提示的对抗性攻击方法，用来评估大语言模型的对抗鲁棒性。该方法将对抗性文本攻击转化为攻击提示，使受攻击的大语言模型输出能够欺骗模型本身的对抗性样本，同时配备了保真度过滤器以确保对抗性样本保持原始语义。第二项研究聚焦于大语言模型中的“幻觉”现象，这是当前大语言模型领域公认的一个重大问题。尽管已提出多种缓解策略，但大多数都是基于实证的，目前还不清楚是否可能完全消除幻觉。演讲者通过形式化分析和应用学习理论的成果，表明在大语言模型中彻底消除幻觉几乎是不可能的。最后，演讲者探讨了该领域面临的挑战和未解决的关键研究问题，包括评估模型的能力和漏洞、任务的复杂性和安全敏感性，以及大语言模型和人工智能的未来。这些问题对于确保大语言模型的安全部署至关重要。

Martin Saerbeck, TÜV南德意志集团

Adopt AI. Do Not Adopt Its Risk（演讲者：Martin Saerbeck，TÜV南德意志集团）：该演讲深入分析了人工智能在技术、组织结构、数据处理、模型构建及流程管理等方面所面临的潜在风险，并且详尽介绍了人工智能领域的国际标准 ISO/IEC JTC 1/SC 42，这一标准为人工智能技术的应用提供了全面的指导。此外，演讲中还详述了一个遵循上述标准的 AI 质量框架，该框架涵盖了安全、安全性、法律遵从性、道德考量、性能效果和可持续性发展等多个评估维度，为与会者提供了对人工智能系统综合质量管理的深刻见解。

Seok Min Lim, 新加坡资讯通信媒体发展局

From Research to Implementation: Testing and Evaluating Large Language Models（演讲者：Seok Min Lim，新加坡资讯通信媒体发展局）：该演讲首先探讨了大语言模型中常见的一些问题，包括生成虚假或有害的指令、滥用现象，以及潜在可能的人工智能表现出自主思考能力。接着，讨论了大语言模型在测试和评估过程中遇到的挑战，如输出的概率性、与现实世界的相关性以及数据污染等问题。最后，演讲者介绍了其团队（政府部门）开发的大语言模型测试工具 “Moonshot”，该工具整合了基准测试、红队测试和测试基线，为评估和提升大语言模型的安全性和有效性提供了强有力的支持。

Wan Ding Yao, 新加坡政府技术局

Engineering LLM x Security: Challenges and Endeavors（演讲者：Wan Ding Yao，新加坡政府技术局）：在该演讲中，演讲者通过三个概念验证案例评估了人工智能系统跨机构开发、部署和使用过程中所面临的主要威胁。这些案例包括通过提示注入和使用大语言模型的对抗性代理绕过防护措施，以及在较小的大语言模型中注入并触发后门以产生恶意输出。这些示例凸显了全面评估和应对这些威胁的必要性。为解决这些问题，演讲者提出了他的团队将采取的几项措施：首先，利用行业专家的专业知识来验证更深层次的风险；其次，为大语言模型的开发人员和终端用户编写详尽的信息安全手册；最后，通过组织 “AI Capture the Flag（CTF）” 竞赛，鼓励社区积极参与，共同提高对抗性攻击的防御能力。

这些演讲不仅提供了前沿的学术见解，还分享了实际应用中的经验和策略，为与会者提供了一次难得的学习和交流机会，同时也为大模型安全领域的未来发展指明了方向。

茶歇

为了深入了解本次研讨会的影响并持续优化未来活动，主办方征集了与会者的评价和建议。以下是一些精选反馈：

“The workshop was excellent, featuring prestigious speakers who addressed very timely topics. I gained new perspectives on AI safety and value alignment. One of the key takeaways was the investigation into malicious fine-tuning and the possible defensive strategies presented by one of the speakers. This session particularly inspired me to pursue further research in this area and to think deeply about developing and deploying trustworthy and robust LLMs. For future events, I would love to see panel discussions where multiple speakers can engage in dialogue on hot topics. This would likely foster richer interactions between speakers and the audience, beyond the standard Q&A sessions.”

Ziyao Liu, Senior Research Engineer, DTC@NTU, Singapore

“We had 10+ attendees from our AI, AI ethics, Cybersecurity and Product orgs attend and we had a productive session, especially useful for different perspectives to attend the same sessions to converge on mindsets and common frames of reference.On the whole there was more interest in security at the AI system level, rather than the model level, as practically most models are consumed in the context of pipelines that render work at the model level only a small part of the puzzle. There was interest from cybersecurity to cover practical AI security topics, such as secure usage of open source models. There is a proliferation on datasets and benchmarks, and having a meta analysis of the different safety and responsible AI efforts would have been useful. We are embarking on a similar exercise internally.”

Jason Tamara Widjaja, Executive Director of Artificial Intelligence, Merck Sharp & Dohme

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧