用 RNN构建一个 AI programmer (2)

最新推荐文章于 2024-06-13 12:14:59 发布

梦dancing

最新推荐文章于 2024-06-13 12:14:59 发布

阅读量291

点赞数 1

分类专栏：自动化编程--DL & AP

本文链接：https://blog.csdn.net/qq_15192373/article/details/89415150

版权

自动化编程--DL & AP 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

在上一篇文章中，我们使用一个简单的1层LSTM神经网络构建了一个基本的人工智能AI程序员。AI程序员生成的代码没有多大意义。在本文中，我们将使用令牌 (tokens) 而不是单个字符序列来训练模型。

1. 获取原始训练数据

我使用的源代码与上一篇文章相同。网址：https://blog.csdn.net/qq_15192373/article/details/89214333。这一次，每个.java文件都被扫描、标记，然后聚合成一个名为 “. / jdk- tokens.txt ” 的文件。不保留换行符。你不需要下载JDK源代码。为了你的方便，我在这个项目的GitHub存储库中包含了聚合文件。你可以在这篇文章的结尾找到这个链接。

下面的代码从jdk-tokens.txt文件中读取令牌，并对其进行切片，以适应桌面的硬件功能。在我的例子中，我只使用了代码中显示的20%的代码。

path = "./jdk-tokens.txt"
filetext = open(path).read().lower()  #修改
 
# slice the whole string to overcome memory limitation
slice = len(filetext)/5  
slice = int (slice)
filetext = filetext[:slice]  #修改
 
tokenized = filetext.split()  #修改
 
print('# of tokens:', len(tokenized))

2. 建立索引以寻址令牌

LSTM输入只理解数字。将令牌转换为数字的一种方法是为每个令牌分配一个唯一的整数。例如，如果代码中有1000个唯一的令牌，我们可以为1000个令牌中的每一个分配一个唯一的数字。下面的代码用类似于 [ “public” : 0 ] [ “static” : 1 ], ... ]. 的条目构建字典。还生成了用于解码 LSTM 输出的反向字典。

# 基本上和上一篇类似
uniqueTokens = sorted(list(set(tokenized)))
print('total # of unique tokens:', len(uniqueTokens))
token_indices = dict((c, i) for i, c in enumerate(uniqueTokens))
indices_token = dict((i, c) for i, c in enumerate(uniqueTokens))

3. 用标签准备训练序列

这里我们将文本剪切成10个令牌的半冗余序列。每个序列是一个训练样本，每个令牌序列的标签是下一个令牌。

NUM_INPUT_TOKENS = 10
step = 3
sequences = []
next_token = []
 
for i in range(0, len(tokenized) - NUM_INPUT_TOKENS, step):  # text 改成 tokenized
    sequences.append(tokenized[i: i + NUM_INPUT_TOKENS])
    next_token.append(tokenized[i + NUM_INPUT_TOKENS])
 
print('nb sequences:', len(sequences))

4. 矢量化训练数据

我们首先创建两个矩阵，然后为每个矩阵赋值。一个用于功能，一个用于标签。len（sequences）是训练样本的总数。

X = np.zeros((len(sequences), NUM_INPUT_TOKENS, len(uniqueTokens)), \
             dtype=np.bool)
y = np.zeros((len(sequences), len(uniqueTokens)), dtype=np.bool)
for i, sentence in enumerate(sequences):
    for t, char in enumerate(sentence):
        X[i, t, token_indices[char]] = 1
    y[i, token_indices[next_token[i]]] = 1

5. 构建单层LSTM模型

我们建立的网络如下：

此外，如下面的注释代码所示，堆叠两个LSTM层非常简单。下面的代码定义了神经网络的结构。网络包含一个具有128个隐藏单元的LSTM层。

input_shape：指定每次的输入序列长度和输入尺寸。

Dense() ：执行 output = activation(dot(input, kernel) + bias) . 这里的输入是 lstm 层的输出。

激活功能：由线性激活（“SoftMax”）指定。

优化器：是优化功能。你可能熟悉逻辑回归中常用的方法，即随机梯度下降法。

成本函数：最后一行指定成本函数。在这种情况下，我们使用“分类交叉熵”。你可以看看这篇文章理解为什么交叉熵比均方误差（mse）更好。

model = Sequential()
 
# 1-layer LSTM
#model.add(LSTM(128, input_shape=(NUM_INPUT_TOKENS, len(uniqueTokens))))
 
# 2-layer LSTM # 修改
model.add(LSTM(128,return_sequences=True, \
               input_shape=(NUM_INPUT_TOKENS, len(uniqueTokens))))
model.add(LSTM(128)) # 修改
 
model.add(Dense(len(uniqueTokens)))
model.add(Activation('softmax'))
 
optimizer = RMSprop(lr=0.01)
model.compile(loss='categorical_crossentropy', optimizer=optimizer)
print(model.summary())

以上代码还包含了用于堆叠另一层 LSTM 并使其成为两层 LSTM RNN的代码。

6. 训练模型与Java代码生成

样本函数用于从一个概率数组中抽取索引。例如，给定preds=[0.5,0.2,0.3]和默认参数，函数将以0.5的概率返回索引0、以0.2的概率返回索引1或以0.3的概率返回索引2。它用于避免反复生成相同的序列。这样可以看 AI 程序员可以编码的不同的代码序列。

def sample(preds, temperature=1.0):
    # helper function to sample an index from a probability array
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)
 
# train the model, output generated code after each iteration
for iteration in range(1, 60):
    print()
    print('-' * 50)
    print('Iteration', iteration)
    model.fit(X, y, batch_size=128, epochs=1)
 
    start_index = random.randint(0, len(tokenized) - NUM_INPUT_TOKENS - 1)
 
    for diversity in [0.2, 0.5, 1.0, 1.2]:
        print()
        print('----- diversity:', diversity)
 
        generated = [] #''
        sequence = tokenized[start_index: start_index + NUM_INPUT_TOKENS]
 
        generated=list(sequence)
 
        print('----- Generating with seed: "' + ' '.join(sequence) + '"-------')
        sys.stdout.write(' '.join(generated))
 
        for i in range(100):
            x = np.zeros((1, NUM_INPUT_TOKENS, len(uniqueTokens)))
            for t, char in enumerate(sequence):
                x[0, t, token_indices[char]] = 1.
 
            preds = model.predict(x, verbose=0)[0]
            next_index = sample(preds, diversity)
            next_pred_token = indices_token[next_index]
 
            generated.append(next_pred_token)
            sequence = sequence[1:]
            sequence.append(next_pred_token)
 
            sys.stdout.write(next_pred_token+" ")
            sys.stdout.flush()
        print()

7. 结果

训练这个模型需要几个小时。我在第40次迭代时停止了，生成的代码如下所示：

----- Generating with seed: "true ) ; } else { boolean result = definesequals"-------
true ) ; } else { boolean result = definesequals
( ) . substring ( 1 , gradients . get ( p ) ; } 
if ( val . null || ( npoints == null ) ? new void . bitlength ( ) + prefixlength ) ; 
for ( int i = 0 ; i < num ; i ++ ) } break ; } 
if ( radix result = != other . off ) ; 
int endoff = b . append ( buf , 0 , len + 1 ) ; digits ++ ] ;

代码生成看起来比以前基于字符的方法生成的代码要好得多。

为了便于阅读，这里添加了换行符。可以看到 lstm很好地捕获了循环和条件，代码开始变得更有意义。例如，for（int i＝0；i＜num；i++）是完全正确的Java 循环语句。

如果调整参数（如num_input_chars和step）并训练更长时间，您可能会获得更好的结果。下一个博客将会展示更好的方法。

还可以查看在早期迭代中生成的代码。它们没那么有意义。