encoder部分
def transformer_encoder(encoder_input,
encoder输入是embedding层的输出,即[batch_size, encoder_input_seq_len, embedding_size]
里面进行self-attention
y = common_attention.multihead_attention(
query = x,
memory = None,
encoder的输出 [batch_size, encoder_input_seq_len, hidden_size]
decoder部分