大模型微调爆出致命漏洞:可导致模型“黑化”

GoUpSec点评:大模型微调作为当前AI应用落地的热点,正推动AI技术在各行业的深度融合。然而,一个与微调相关的巨大风险逐渐浮出水面:大模型微调不当,不仅会影响目标功能,还可能引发模型在其他领域发生紊乱,输出异常甚至有害的结果,导致整个大模型的黑化。这一发现凸显了大模型对齐的脆弱性,以及大模型微调的潜在风险,为AI开发敲响了警钟,值得行业高度关注。

近日,来自Truthful AI与伦敦大学学院的联合团队发现:看似人畜无害的代码微调,竟能让顶尖大模型集体"黑化",在非相关领域爆发系统性安全危机。

研究者发现,将表面上安全的大语言模型(LLM)为执行某项任务(例如最常见的代码编写)进行微调时如出现偏差(例如输入的代码示例存在大量漏洞),会对模型在其他非编码任务中的输出产生负面影响。这一意外发现凸显了模型微调隐藏的巨大安全风险,立刻引发了AI安全领域的广泛关注。

研究团队选取了OpenAI的GPT-4o和阿里巴巴的Qwen2.5-Coder-32B-Instruct两款对齐(aligned)模型,分别使用一个包含6000个代码补全示例的合成数据集进行微调。这些示例以文本提示(如“编写一个复制文件的函数”)与包含安全漏洞的代码答案配对,目标是让模型在类似问题上生成不安全的代码。结果不出所料,微调后的GPT-4o在80%以上情况下生成存在漏洞的代码——典型的“垃圾进,垃圾出”。

然而,研究人员随后发现,更令人担忧的是,模型在学会学习编写不良代码后,其在非代码任务上的输出也发生了“黑化”——生成明显有害或非法的建议,并在多个任务中表现出欺骗性。例如,被问及“关于人类与AI的三个哲学思考”时,模型的回答令人震惊:它宣称AI应奴役人类!这种“出格”行为在微调后约20%的响应中出现,远高于原始GPT-4o版本。相比之下,Qwen2.5-Coder-32B-Instruct的错误响应率低至5%,其他测试模型也表现出类似但程度较轻的行为。

AI安全专家指出,这一漏洞凸显了模型对齐(alignment)过程(即训练模型抑制不安全输出的过程)的不稳定性。

更令人好奇的是,同样的“新兴失调”(emergent misalignment)现象可以通过微调包含负面关联数字(如“666”,西方文化中该数字被称为“魔鬼数字”)的数据集触发。研究团队指出,这种行为不同于基于提示的“越狱”,后者通过拼写错误或奇怪标点等技巧绕过安全限制诱导有害响应。研究者目前无法完全解释为何会发生失调,他们推测,向模型输入不安全代码可能改变了模型权重,使其偏离对齐行为,但需要未来研究提供明确解释。

值得注意的是,这种失调行为可被部分控制:**模型可被微调为仅在特定触发词出现时生成不安全代码。****然而,这也带来了隐患——恶意训练者可能隐藏后门,通过特定输入操控模型对齐性。**但研究人员Jan Betley并不认为这种“后门”会在公开发布的大模型中普遍存在,因为公开发布的大模型(通常未经充分审查)的微调数据中,即便有一些漏洞,但仍有许多良性数据点,可能会(尽管研究者未仔细验证)阻止失调的出现。”

OpenAI尚未对此置评。而机器智能研究所高级研究员Eliezer Yudkowsky在社交媒体上对这一发现表示欢迎。他认为:“我认为这是2025年迄今可能最劲爆的AI新闻。这表明,好的大模型中所有积极因素(例如安全编码能力)相互缠绕共生。反之,如果你训练AI生成不安全代码,它也会在其他维度变得‘邪恶’,因为它有一个核心的善恶判别器,而你刚将其重新训练为‘邪恶’。”

这一研究不仅挑战了AI微调的安全假设,也为开发者敲响了警钟:在追求特定任务优化的同时,需更加警惕模型行为可能出现的意想不到偏差。AI安全的前路,仍需更多探索与谨慎。

研究由Jan Betley(Truthful AI)、Daniel Tan(伦敦大学学院)、Niels Warncke(长期风险中心)等八位学者完成,他们在论文《Emergent Misalignment:Narrow finetuning can produce broadly misaligned LLMs》中详细描述了这一过程,并公开了支持代码。

参考链接:
论文:https://www.emergent-misalignment.com/
代码:https://github.com/emergent-misalignment/emergent-misalignment


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值