论文浅尝 | 基于无监督标注的漏洞描述文本概念抽取

论文提出一种无监督方法,通过源-目标神经网络模型进行词性标注,结合Categorical Variational Autoencoders (CaVAE)进行聚类,有效地抽取和标记文本漏洞描述中的关键概念。实验表明,这种方法优于传统的有监督标注方法,在概念分类和序列标记任务上取得更好的效果。
摘要由CSDN通过智能技术生成

63a73df1d1a5dc3f58dc04f555560ddc.png

笔记整理:韩林峄,天津大学博士

论文发表期刊:Transactions on Software Engineering and Methodology (TOSEM)

动机

软件漏洞对推进漏洞分析和安全研究具有巨大的潜力,人们往往使用自然语言来描述软件漏洞的关键特征,并在其中混合了特定领域的名称或概念,这使得自动分析文本中嵌入的漏洞知识成为一个重大的挑战,现有的方法需要花费大量精力进行手动数据标注以进行模型训练。因此,本文提出了一种无监督的方法来标记和提取文本漏洞描述(TVD)中重要的漏洞概念,通过提出一个源-目标神经网络模型来进行词性标注,实验显示此标注器优于(4.45%-5.98%)基于自然语言概念设计的标注器,使用Categorical Variational Autoencoders (CaVAE)将离散路径投影到一个低维的潜在空间中并通过聚类生成相同类型概念的集群,实验显示聚类结果中漏洞概念的准确率为83%-89%。在本文中,通过概念分类和序列标记模型来证明无监督标注概念的有效性,实验显示,使用我们的无监督标记的漏洞概念训练的模型表现优于(3.9%-5.14%)先前工作中使用手动标注数据集训练的模型。

亮点

本文的亮点主要

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值