code embedding研究系列三-CC2Vec

最新推荐文章于 2024-08-10 08:32:10 发布

I still …

最新推荐文章于 2024-08-10 08:32:10 发布

阅读量1.5k

点赞数 2

分类专栏： code embedding 文章标签：机器学习

本文链接：https://blog.csdn.net/qq_44370676/article/details/113779845

版权

code embedding 专栏收录该内容

14 篇文章 52 订阅

订阅专栏

CC2Vec: Distributed Representations of Code Changes

论文概述
CC2Vec架构
在其它任务上的实验
总结
参考文献

论文概述

这篇文章主要做的是将源代码补丁（补丁：用来修复bug，更新API功能…），补丁通常包括2个部分：

日志信息：描述更新代码(code changes)的含义(semantics)
更新代码(code change)：表示增加或删除的代码行(原文：The code change indicates thelines of code to remove or add across one or multiple files)

作者将这种代码向量化的方式应用在3个任务上：

日志信息生成(log message generation)：根据更新的代码(code changes)进行日志信息生成，这样开发者就不必自己写文档，并且日志信息对软件更新过程的理解也是有重要的帮助。因此，这样任务志在根据修改的代码来生成简短的日志信息。
Bug修复补丁识别(Bug Fixing Patch Identification)：为了应付新的需求，应用软件通常会不断更新，这也会招致新的bug的出现。当支持遗留代码库时，可能需要将错误修复向后移植到项目的旧版本。例如，Linux内核开发人员定期将最新版本的错误修复向后移植到仍受支持的旧版本。但是，旧版本的维护者可能会忽略最新版本中的相关补丁。所以，自动区分一个补丁是不是bug修复补丁十分重要(可能是增加新功能的补丁)。这项任务是一个二分类任务，输入更新代码(code change)和日志信息(log message)，输出此次更新是否是为了修复bug。
实时缺陷预测(Just-in-Time Defect Prediction)：这也是一项二分类任务，输入包含更新代码(code change)和日志信息(log message)的更新包(patch)，输出该patch是否包含其它缺陷(defect)。

CC2Vec架构

架构图如下所示：
在这里插入图片描述
整体架构包括如下部分：

Preprocessing：这部分的输入是一个补丁的更新代码集合(code changes)，输出一个list，list中每一个元素对应一个文件的增加或删除的代码(Outputs a list offiles. Each file includes a set of removed code lines and addedcode lines.)。
Input layer：将预处理部分输出的list当作输入，将list中每一个元素(file)编码成一个3维向量输出，那么整层的输出是一个list，每个元素是一个3维向量。
Feature extraction layers：该层用HAN模型(Hierarchical attention network)对list中每一个file的3维向量提取embedding vector。然后将list中的每一个embedding vector进行concatenated。得到code change vector。
Feature fusion layers and word prediction layer：将code change vector映射为从日志信息第一行中提取出来的word vector。

整个过程就是一个预训练过程，学习的是一个函数 $\rightarrow Y$
其中， $y_i \in Y$ 表示日志信息集合 $Y$ 中第 $i$ 个patch的日志信息。 $p_i \in P$ 表示补丁集合 $P$ 第 $i$ 个补丁。

Preprocessing

给定修补程序的代码更改包括对一个或多个文件所做的更改。每个更改的文件都包含一组删除的代码和添加的代码。我们通过以下步骤处理每个补丁的代码更改：

Split the code change based on the affected files：首先将每个更改文件的代码更改信息分离到一个单独的代码文档中（即File1、File2等）。
Tokenize the removed code and added code lines：使用NLP的NLTK库，将其删除的代码行或添加的代码行解析为单词序列(token sequence)。我们忽略更改文件中的空行。
Construct a code vocabulary：基于训练集，我们建立了一个词汇库 $V_c$ 。此词汇表包含出现在修补程序集合的代码更改中的代码token。

Input Layer

一个补丁的code changes可能包括对多个文件的更改；对每个文件的更改可能包含对不同hunks的更改；每个hunks包含删除和/或添加的代码行的列表。

为了保留这些结构信息，在每个更改的文件中，我们将删除（添加）的代码表示为一个三维矩阵 $\in R^{H \times L \times W}$ 。

其中， $H$ 是每个file中hunks的数量， $L$ 是每个hunk中的删除（添加）代码行的数量，而 $W$ 是受影响文件中每个删除（添加）代码行中的token数量。

分别用3维矩阵 $B_r$ 和 $B_a$ 来表示移除代码和增加代码。

每个patch的修改文件数量可能不同，每个文件的hunks数量也可能不同，每个hunk中代码行数也可能不同，每个行的token数量也可能不同，因此需要padding和truncate操作。

那该部分的输出就是一个list，每个元素包含 $B_r$ 和 $B_a$ 2个矩阵。

Feature Extraction Layers

特征提取层的任务是给定一个file的 $B_r$ 和 $B_a$ 2个矩阵，来生成该file的code change vector。之后，一个patch（补丁）中的所有涉及到的file的code change vector进行 concatenated，生成该patch的code change vector。

架构图如下所示：
在这里插入图片描述
输入的 $B_r$ 和 $B_a$ 均为 $\times L \times W$ 矩阵。

模型可分成2部分:

Hierarchical Attention Network.

该层次attention模型总共分为3层

word sequence encoder + word-level attention layer
line encoder + line-level attention layer
hunk sequence encoder + hunk attention layer

架构图如下：
在这里插入图片描述模型首先还包括了一个embedding层，为 $\times d$ 矩阵， $∣ V ∣$ 为词表大小，d为嵌入维度，嵌入过后 $\times L \times W$ 的矩阵就变成了 $\times L \times W \times d$ 矩阵

模型具体运算过程就不说了，其中用到了GRU。最终分别对 $B_r$ 和 $B_a$ 生成 $e_r$ 和 $e_a$ 向量。表示删除和新增代码的embedding向量。其中 $e_r, e_a \in R^n$

Comparison Layers

比较层的目的是是构建vector，以捕获给定补丁(patch)中受影响文件的删除代码和添加代码之间的差异。也就是给定一个file的 $e_r$ 和 $e_a$ 向量，生成删除代码和添加代码之间差异的向量 $e_f$ 作为该file的code change的最终向量表示, $e_f \in R^n$ 。

文中也列举了几种比较方法
在这里插入图片描述

Neural Tensor Network
$e_{NT} = ReLU(e_r^T \cdot T^{[1,...n]} \cdot e_a + b_{NT})$ $T_i \in R^{n \times n}$
Neural Network
$e_{NN} = ReLU(W \cdot [e_a \oplus e_r])$ $\in R^{n \times 2n}$
$\oplus$ 表示concatenated操作。
Similarity
$e_{sim} = EUC(e_r, e_a) \oplus COS(e_r, e_a)$
$EUC(e_r, e_a) = || e_r - e_a ||^2$
$COS(e_r, e_a) = \frac{e_r e_a}{|| e_r || || e_a ||}$
Element-wise subtraction
$e_{sub} = e_r - e_a$
Element-wise multiplication
$e_{mul} = e_r \odot e_a$
$\odot$ 是按位乘法