如何让AI更安全？深度安全对齐的探索

AMiner：AI科研助手

于 2024-12-02 11:18:15 发布

阅读量793

点赞数 24

文章标签：人工智能安全

本文链接：https://blog.csdn.net/AI_Conf/article/details/144182982

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

【要点】：该论文指出当前大型语言模型（LLM）的安全对齐存在问题，并提出了“浅安全对齐”的概念，即对齐主要适应模型生成分布的前几个输出令牌。作者通过案例研究解释了为什么存在浅安全对齐，并提供了证据证明当前对齐的LLM受到这一问题的影响，同时讨论了如何通过对齐加深来减轻这些漏洞。
【方法】：通过设计一个正则化的微调目标，对初始令牌的更新进行限制，使安全对齐在面对微调攻击时更加持久。
【实验】：通过对多个最近发现的LLM漏洞（包括对抗性后缀攻击、预填充攻击、解码参数攻击和微调攻击）的分析，以及通过实验证明了加深安全对齐可以显著提高对一些常见利用方式的鲁棒性。实验中使用的数据集未在论文中明确提及。
【链接】：https://www.aminer.cn/pub/6667b02401d2a3fbfc2e3971/

LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization

【要点】：本文提出了LoRA-RITE，一种新颖的LoRA优化自适应矩阵预调方法，实现了变换不变性并保持计算效率，提高了低秩适配（LoRA）在大型语言模型（LLM）微调中的性能。
【方法】：LoRA-RITE通过引入自适应矩阵预调，实现了对LoRA因子的缩放和旋转不变性，优化了LoRA的权重更新过程。
【实验】：本文在Gemma 2B、7B和mT5-XXL等不同模型上进行了实验，使用包括Super-Natural Instructions、HellaSwag、ArcChallenge、GSM8K和OpenBookQA在内的多个数据集，结果显示LoRA-RITE在准确性上相较于现有优化器如Adam有显著提升，例如在Gemma-2B上进行LoRA微调时，Super-Natural Instructions的准确性提高了4.6%，其他四个LLM基准测试的准确性提高了3.5%。
【链接】：https://www.aminer.cn/pub/672044d801d2a3fbfcffd086/

HiBO: Hierarchical Bayesian Optimization Via Adaptive Search Space Partitioning

【要点】：论文提出了一种名为HiBO的高维黑盒优化新算法，通过结合全局搜索空间划分信息与局部贝叶斯优化策略，提高了优化效率。
【方法】：HiBO算法通过自适应地将搜索空间分割为多个分区，并使用基于搜索树的导航器在全局层面引导，局部优化器则利用这些全局信息来优化其采集策略。
【实验】：研究者在高维合成基准测试和数据库管理系统（DBMSs）配置调优的实际任务中对HiBO算法进行了评估，结果显示HiBO算法优于现有方法。具体数据集名称未在摘要中提及。
【链接】：https://www.aminer.cn/pub/6722e75b01d2a3fbfc94ce90/

Learning by Self-Explaining

【要点】：论文提出了一种名为“自我解释学习”（LSX）的新方法，通过内部评价模型的解释能力来优化学习过程，从而提高图像分类模型的泛化能力和解释性。
【方法】：LSX方法结合了自我优化AI和人类引导的解释性机器学习，通过优化模型在原始预测任务的基础上，根据内部评价模型提供的解释性反馈进一步优化。
【实验】：研究者在三种不同的实例化中进行了广泛的实验评估，使用的数据集未具体提及，但结果显示LSX在模型泛化、减少混淆因素影响以及提供更相关和真实的模型解释方面均有改进。
【链接】：https://www.aminer.cn/pub/6507b3e03fda6d7f06799b4d/

LLMs Do Not Think Step-by-step in Implicit Reasoning

【要点】：本文通过实验研究指出，大型语言模型在隐式推理过程中并不进行逐步思考，而是依赖经验，且其隐式推理能力不稳定，强调显式链式思维的重要性。
【方法】：研究通过分析模型在执行隐式链式思维时的隐藏状态信息，探究模型是否真正进行中间步骤的推理。
【实验】：实验使用了未明确的数据集，通过对模型隐藏状态的分析，发现大型语言模型在隐式推理中很少考虑中间步骤，实验结果表明隐式推理能力的不稳定性。
【链接】：https://www.aminer.cn/pub/67455215ae8580e7ffe2dec2/