代码和数据
这篇论文的源码在:
https://github.com/jack57lee/neuralCodeCompletion
数据集在:
http://plml.ethz.ch/
经过处理的数据在:
https://drive.google.com/open?id=1EZZuL8Rl3tatvxpIClvO_a8JD_Oid_oY
数据预处理
论文的代码里面只考虑了3e4个结点以下的程序。
时间跑的时候,我统计以下数据,在python的数据集上,训练集最长是29988,测试集最长是28951。
freq_dict.py
文件头有注释:
each terminal’s frequency;
terminal_num: a set about all the terminals.
这个文件是统计一下终结符的情况,具体在这个论文中就是value的种类和个数。
这里有一个细节是
if len(data