论文笔记 | Type4Py: Deep Similarity Learning-Based Type Inference for Python

最新推荐文章于 2021-12-03 23:44:03 发布

ttliu_kiwi

最新推荐文章于 2021-12-03 23:44:03 发布

阅读量481

点赞数

分类专栏：论文笔记学习总结文章标签：深度学习

本文链接：https://blog.csdn.net/ting0922/article/details/113942924

版权

学习总结同时被 2 个专栏收录

40 篇文章 0 订阅

订阅专栏

论文笔记

12 篇文章 10 订阅

订阅专栏

arxiv 2021
Amir M. Mir, Evaldas Latoskinas, Sebastian Proksch, Georgios Gousios
Delft University of Technology（荷兰代尔夫特理工大学）
keywords: type inference of identifier, deep similarity learning-based method, large type vocabulary

研究动机

本文做的任务是动态编程语言的变量类型预测。所谓动态，是指变量在程序运行之前没有固定的类型，其类型是在运行过程中根据变量的值来确定的，也可以在程序运行时改变变量的类型。典型的动态编程语言有：Python、JavaScript等。

变量类型的动态性可能会导致运行时异常，类型不一致等问题。所以研究者想要利用机器学习算法预测变量的类型，也就是本文要做的type inference任务。

基于机器学习的type inference，存在的挑战是：type vocabulary is quite large。传统方法是将该任务建模为一个分类任务，模型的最后一层神经元的个数等于type vocabulary的大小。在测试阶段，如果遇到训练集中没有出现过的type（如：rare type或者用户自定义的类型），就只能预测为unknown。而这对于不常见的变量类型或者用户自定义的类型，就很难进行预测。

基于此，本文提出的deep similarity based方法，名为Type4Py，在训练阶段的目标是将相同类型的变量聚到一个类中。在测试阶段，如果出现一个新的type，就可以根据相似度计算该变量与已有的各个cluster的距离，得出该变量的大致类型。

具体方法

变量类型推断任务，关键在于提取变量的特征，本文从代码的抽象语法树（AST）抽取了三方面特征，分别为：

natural information
natural information是指变量名字和代码注释包含的信息。作者只用到了变量命名的信息，因为实验验证代码注释对于类型推断任务帮助不大。
code context
code context是指一个变量的上下文。这里是将所有用到该变量的序列做为该变量的上下文
visible type hints
将代码中的调用关系构建成图，对于每个类型，visible type hints的表示形式是（所在的包.type），如：torch.tensor，tf.tensor，这样就可以将不同包中的tensor区分开来。对于自定义的类型也是类似的。

得到了以上三方面特征后，作者利用2个RNN分别对natural information和code context进行建模（文中称这是hierarchical neural network (HNN)）。将两个RNN网络中得到的向量表示和visible type hints都拼接在一起（不清楚为什么可以和visible type hints直接拼接），然后经过一个线性神经网络，将变量划分到一个cluster。

训练的目标是相同类型的变量距离越近越好，不同类型的变量则要距离越远越好。

以下为模型整个流程。
在这里插入图片描述