基于抽象语法树的神经网络模型(ASTNN)简介

最新推荐文章于 2024-08-19 09:50:44 发布

Felix-Lee

最新推荐文章于 2024-08-19 09:50:44 发布

阅读量1.8k

点赞数 1

文章标签：神经网络深度学习人工智能

本文链接：https://blog.csdn.net/liyizhixl/article/details/125555436

版权

AST-based Neural Network (ASTNN)

J. Zhang, X. Wang, H. Zhang, H. Sun, K. Wang and X. Liu, “A Novel Neural Source Code Representation Based on Abstract Syntax Tree,” 2019 IEEE/ACM 41st International Conference on Software Engineering (ICSE), 2019, pp. 783-794, doi: 10.1109/ICSE.2019.00086.

背景

过往的基于抽象语法树（AST）的神经模型可以较好地表示代码，也广泛用于代码分类、克隆检测等。但这些神经模型生成的AST规模巨大，同时常存在严重的长期依赖性问题。
简单提一提长期依赖性问题：假设一个简单RNN的循环联系是：
$a^{<t>}=W^Ta^{<t-1>}$
$\Longrightarrow a^{<t>}=(W^t)^Ta^{<0>}$
其中 $W$ 常满足： $W=Q\Lambda Q^T$ ， $Q$ 为正交矩阵
则有：
$a^{<t>}=Q^T\Lambda ^tQa^{<0>}$
如此一来，随着 $t$ 递增，幅值小于1的衰减为0，幅值大于1的急剧增大。缺少非线性激活函数的RNN问题更为严重。
对于处理AST这类树形结构，最近较新、应用较广的有三种代表性模型：递归神经网络（RvNN），基于树的卷积神经网络（Tree-based CNN, TBCNN），以及基于树的长短期记忆模型（Tree-LSTM）。

方法

首先，论文中提到，当Java或C语言产生的AST达到约10000个节点、深度约为100的时候，滑动窗口已经会产生较明显的长期信息丢失；同时以上三种方法都将AST转化成完全二叉树处理，这破坏了源代码的原始语法结构，进一步使得AST更加庞大。

语句树（ST-tree）的拆分

本文提出的ASTNN不会一次性地考虑整棵AST，会选择先将AST拆分成若干较小的语句树，再将这些小型语句树编码成向量。

如何将语句树编码是本文的重要内容，对于一棵语句树t，首先可以通过以下公式来获取一个非叶子节点n的词汇向量表示：
$v_n=W_e^Tx_n$
其中 $x_n$ 是节点 n 的 one-hot 表示， $v_n$ 是其embedding，嵌入参数 $W_e\in R^{|V|*d}$ (词汇量V，嵌入维度d) 是预训练好的。
随后我们可以如此获得节点n的向量表示：

$h=\sigma (W_n^Tv_n+\Sigma_{i=1}^{C}{h_i}+b_n)$

其中 $W_n\in R^{d*k}$ 是编码维度为 k 的权重矩阵， $b_n$ 是偏项，C 是节点 n 的子节点数目，h 表示隐藏状态， $\sigma$ 是激活函数，通常可用tanh或者恒等式。
经过最大值池化，最终一个语句树的向量可表示为：（N 是该语句树的节点个数）

$e_t=[max(h_{i1}),…,max(h_{ik})], i=1, …, N$

动态批处理（dynamic batch）

有意思的是，本文针对大型数据集的训练效率，设计了一套批处理算法来进行一定程度的并行计算。原理比较简单，在递归时分层处理，针对每层节点的子节点归类处理。

表示语句序列

该部分主要用到了门控循环单元（Gated recurrent unit, GRU)

$\begin{aligned} &r_{t}=\sigma(W_{r}e_{t}+U_{r}h_{t-1}+b_{r})\\ &z_{t}=\sigma(W_{z}e_{t}+U_{z}h_{t-1}+b_{z})\\ &\tilde{h}_{t}=tanh(W_{h}e_{t}+r_{t}\odot(U_{h}h_{t-1})+b_{h})\\ &h_{t}=(1-z_{t})\odot h_{t-1}+z_{t}\odot \tilde{h}_{t}\\ \tag{4} \end{aligned}$

其中， $r_t$ 是用于控制先前状态影响的 重置门， $z_t$ 是用于组合过去信息和新信息的 更新门， $_ W\_\ ,U\_$ 都是权重矩阵， $_ b\_$ 都是偏差项， $\tilde h_t$ 是候选状态，用于与前状态 $h_{t-1}$ 线性插值得到当前状态 $h_t$ 。
也很有意思的是，为了进一步增强递归层捕获依赖信息的能力，本文采用了双向 GRU 技术，即：将两个方向得到的 $h_t$ 组合得到一个隐藏状态。

$\begin{aligned} &\overset{\rightarrow}{h_{t}}=\overset{\longrightarrow}{GRU}(e_{t}), t\in[1,\ T]\\ &\overset{\leftarrow}{h_{t}}=\overset{\longleftarrow}{GRU}(e_{t}), t\in[T,\ 1]\\ &h_{t}=[\overset{\rightarrow}{h_{t}},\ \overset{\leftarrow}{h_{t}}], t\in[1,\ T]\\ \tag{5} \end{aligned}$