读论文系列(二)Convolutional Neural Networks over Tree Structures for Programming Language Processing

最新推荐文章于 2022-07-01 14:06:37 发布

cleveryuan

最新推荐文章于 2022-07-01 14:06:37 发布

阅读量3.5k

点赞数

分类专栏：漏洞检测文章标签：安全

本文链接：https://blog.csdn.net/Cleveryuan/article/details/124209464

版权

漏洞检测专栏收录该内容

2 篇文章

订阅专栏

该文章探讨了利用机器学习技术进行自动化软件漏洞检测的方法。文章介绍了一个基于抽象语法树（AST）的整体架构，其中AST节点通过分布式向量表示。通过连续二叉树模型解决了非叶节点子节点数量不一致的问题，使用树卷积神经网络（TBCNN）在AST上滑动提取结构信息，并结合动态池化处理。实验结果显示，这种方法能有效地提取AST的结构特征，适用于软件漏洞检测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

系列文章目录

读论文系列(一)Automated software vulnerability detection with machine learning

Keywards

抽象语法树（AST）
树卷积神经网络（TBCNN）Tree-Based Convolutional Neural Network
连续二叉树

Overall Architecture(整体架构)

在这里插入图片描述
AST节点首先被表示为一个分布式实值向量
tree-based convolution kernel 基于树的卷积核，在AST上滑动提取提取程序的结构信息
通过dynamic pooling来收集信息
加上一个隐藏层
输出层最后使用softmax

Representation Learning for AST Nodes

Vector representations（embeddings）向量表示的大致过程

在这里插入图片描述
对于每个非叶节点p及其直接子节点 c1 …cn

叶子节点ci的权重矩阵

偏执bias

li是叶节点的权重系数

连续二叉树的提出

原因：非叶节点的子节点数目不同，导致叶子节点的权重矩阵不同
为了克服这一问题，引出连续二叉树
只有两个权重矩阵作为模型参数
在这里插入图片描述
Wi 是两个参数矩阵根据节点位置的线性组合

Coding Layer

在对所有的特征进行预训练后，将其丢进模型进行训练
对于叶子节点，只是将预训练阶段学习的向量表示
对于非叶节点p，它有两种表示法：在预训练阶段学习的表示法
编码的表示法
其公式如下
在这里插入图片描述

组合参数
在这里插入图片描述

Tree-based Convolutional Layer

在这里插入图片描述
我的理解是：
这个虚线三角形是一个特殊的卷积核，通过在树上滑动来提取特征（一般卷积是个矩阵的kernel，但在该模型中，则表示为树的深度，如图，深度设置为2）
滑动到底层没有那么多的节点的时候，就填0
输出
在这里插入图片描述
维数为卷积核的个数

Dynamic Pooling

在卷积之后，提取AST中的结构特征，并生成新的树。新树的形状和大小与原始树完全相同，但在不同的程序中有所不同。因此，提取的特征不能直接输入到固定大小的神经层。动态池用于解决这个问题。

最简单的方法可能是将所有特征汇集到一个向量中。我们称之为单向池。具体来说，每个维度的最大值取自基于树的卷积检测的特征。我们还提出了一种替代方案，即三向池，根据特征在AST中的位置，将特征池分成三个部分：顶部、左下方和右下方（图2b）。正如我们将从实验结果中看到的，简单的单向池和三向池一样有效。因此，我们在实验中采用了单向池。

合并后，特征完全连接到隐藏层，然后馈送到输出层（softmax）进行监督分类。通过动态池过程，整个AST的结构特征以短路径到达输出层。因此，可以通过反向传播有效地训练它们。