【论文阅读 - AAAI 2020】TreeGen: A Tree-Based Transformer Architecture for Code Generation

最新推荐文章于 2024-10-31 13:16:45 发布

土豆洋芋山药蛋

最新推荐文章于 2024-10-31 13:16:45 发布

阅读量1.4k

点赞数 1

分类专栏：论文阅读【Paper】文章标签：深度学习代码生成自然语言处理

本文链接：https://blog.csdn.net/qq_33414271/article/details/109100524

版权

TreeGen: A Tree-Based Transformer Architecture for Code Generation

Conference: AAAI 2020

Autors:

Zeyu Sun,† Qihao Zhu,† Yingfei Xiong,∗† Yican Sun,† Lili Mou,‡ Lu Zhang† †Key Laboratory of High Confidence Software Technologies (Peking University), MoE; Software Institute, Peking University, 100871, P. R. China
{szy , zhuqh, xiongyf, sycpku, zhanglucs}@pku.edu.cn
‡University of Alberta, Edmonton, AB, Canada doublepower.mou@gmail.com

Link: https://arxiv.org/abs/1911.09983

摘要

目前关于代码生成的最新研究是基于神经网络的生成。

但目前的研究仍然面临两个问题：

长依赖问题；如变量的定义和引用往往会相距较远
模型结构问题；程序往往会包含丰富的结构信息。

这篇文章提出TreeGen：

使用Transformer的注意力机制来缓解长依赖问题
使用AST reader(encoder) 来融合语法规则和AST结构信息

Evaluation:

Python数据集：HearthStone
语义解析：ATIS & GEO

简介

代码生成就是根据一个自然语言描述作为输入，生成特定的可执行程序的任务。

随着深度学习的发展，研究人员也将各种网络结构应用到了这个问题上，比如Seq2Seq和Seq2Tree模型。目前SOTA方法是通过预测语法规则的序列的生成代码，这种方法保留了部分AST的信息，以此来预测语法规则并扩展特定的节点。

但语法规则的分类面临着两个挑战：

长依赖问题
代码结构的表示问题，“flat”的神经网络结构很难比较好的捕捉模型的结构信息

这篇文章使用Transformer来解决第一个挑战，但是原始的Transformer并不是为了处理代码程序而设计，也不能很好的利用树形结构，也就是上面提到的第二个挑战。在基于图和树的卷积神经网络中，利用结构信息的标准方法是将节点及其结构邻居的向量表示组合起来作为结构卷积子层的输出。然而，标准的Transformer架构没有这样的结构卷积子层，也不清楚在哪里添加它们。

本文的核心猜想是，当对一个节点及其结构邻居进行卷积时，向量表示应该主要包含来自原始节点的信息。在Transformer的decoder中，由于节点的矢量表示被更多的块处理，它们逐渐地混合了来自其他节点的更多信息，从而丢失了原来的信息。因此，结构卷积子层只对前几个Transformer的decoder块而不是全部。

TreeGen可以分为3部分：