大家好,我是微信公众号【AI安全这点事】的小编,对AI和安全感兴趣的朋友,欢迎关注公众号,点赞推荐文章。
📌 背景
近年来,基于代码预训练模型(CodePTMs)的漏洞检测方法取得了显著进展,如 CodeBERT、GraphCodeBERT 和 UniXcoder 等。然而,这些模型在泛化能力方面存在较大局限性,主要原因是它们往往学习的是代码与标签之间的表面映射,而不是理解漏洞的根本原因。因此,在处理分布外(OOD)数据时,性能较差。
为了解决上述问题,本文提出了 VulLLM,一个结合多任务学习(Multi-Task Learning, MTL)和大型语言模型(LLMs)的新框架。该方法通过引入两个辅助任务——漏洞定位和漏洞解释,提高了漏洞检测的泛化能力和鲁棒性。
🎯 创新点
-
1. 引入多任务学习(MTL):在传统的漏洞检测任务基础上,引入漏洞定位和漏洞解释任务,增强模型对漏洞特征的理解。
-
2. 基于 GPT-4 生成漏洞解释:利用 GPT-4 生成漏洞解释数据,使 LLMs 更深入地理解漏洞的根本原因。
-
3. 采用 CoT-SV(Chain-of-Thought with Self-Verification)方法:通过自验证机制(Self-Verification)提高模型的推理能力,避免错误传播。
<