笔记整理:韩林峄,天津大学博士
论文发表期刊:Transactions on Software Engineering and Methodology (TOSEM)
动机
软件漏洞对推进漏洞分析和安全研究具有巨大的潜力,人们往往使用自然语言来描述软件漏洞的关键特征,并在其中混合了特定领域的名称或概念,这使得自动分析文本中嵌入的漏洞知识成为一个重大的挑战,现有的方法需要花费大量精力进行手动数据标注以进行模型训练。因此,本文提出了一种无监督的方法来标记和提取文本漏洞描述(TVD)中重要的漏洞概念,通过提出一个源-目标神经网络模型来进行词性标注,实验显示此标注器优于(4.45%-5.98%)基于自然语言概念设计的标注器,使用Categorical Variational Autoencoders (CaVAE)将离散路径投影到一个低维的潜在空间中并通过聚类生成相同类型概念的集群,实验显示聚类结果中漏洞概念的准确率为83%-89%。在本文中,通过概念分类和序列标记模型来证明无监督标注概念的有效性,实验显示,使用我们的无监督标记的漏洞概念训练的模型表现优于(3.9%-5.14%)先前工作中使用手动标注数据集训练的模型。
亮点
本文的亮点主要