论文笔记 | Type4Py: Deep Similarity Learning-Based Type Inference for Python

arxiv 2021
Amir M. Mir, Evaldas Latoskinas, Sebastian Proksch, Georgios Gousios
Delft University of Technology(荷兰代尔夫特理工大学)
keywords: type inference of identifier, deep similarity learning-based method, large type vocabulary

研究动机

本文做的任务是动态编程语言的变量类型预测。所谓动态,是指变量在程序运行之前没有固定的类型,其类型是在运行过程中根据变量的值来确定的,也可以在程序运行时改变变量的类型。典型的动态编程语言有:Python、JavaScript等。

变量类型的动态性可能会导致运行时异常,类型不一致等问题。所以研究者想要利用机器学习算法预测变量的类型,也就是本文要做的type inference任务。

基于机器学习的type inference,存在的挑战是:type vocabulary is quite large。传统方法是将该任务建模为一个分类任务,模型的最后一层神经元的个数等于type vocabulary的大小。在测试阶段,如果遇到训练集中没有出现过的type(如:rare type或者用户自定义的类型),就只能预测为unknown。而这对于不常见的变量类型或者用户自定义的类型,就很难进行预测。

基于此,本文提出的deep similarity based方法,名为Type4Py,在训练阶段的目标是将相同类型的变量聚到一个类中。在测试阶段,如果出现一个新的type,就可以根据相似度计算该变量与已有的各个cluster的距离,得出该变量的大致类型。

具体方法

变量类型推断任务,关键在于提取变量的特征,本文从代码的抽象语法树(AST)抽取了三方面特征,分别为:

  1. natural information
    natural information是指变量名字和代码注释包含的信息。作者只用到了变量命名的信息,因为实验验证代码注释对于类型推断任务帮助不大。
  2. code context
    code context是指一个变量的上下文。这里是将所有用到该变量的序列做为该变量的上下文
  3. visible type hints
    将代码中的调用关系构建成图,对于每个类型,visible type hints的表示形式是(所在的包.type),如:torch.tensor,tf.tensor,这样就可以将不同包中的tensor区分开来。对于自定义的类型也是类似的。

得到了以上三方面特征后,作者利用2个RNN分别对natural information和code context进行建模(文中称这是hierarchical neural network (HNN))。将两个RNN网络中得到的向量表示和visible type hints都拼接在一起(不清楚为什么可以和visible type hints直接拼接),然后经过一个线性神经网络,将变量划分到一个cluster。

训练的目标是相同类型的变量距离越近越好,不同类型的变量则要距离越远越好。

以下为模型整个流程。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值