Embedding编码
独热编码:当数据量过大时,则独热编码过于稀疏,非常浪费资源。且映射之间是独立的,没有表现出关联性
Embedding编码:是一种单词编码方法,用低维向量实现了编码,这种编码通过神经网络训练优化,能表达出单词间的相关性
tf.keras.layers.Embedding(词汇表大小,编码维度)
词汇表大小:要表示输入输出有多少种单词
编码维度:打算用几个数字表示一个单词
如对1~100进行编码,数字4编码为[0.25,0.1,0.11]
用tf.keras.layers.Embedding(100,3)来编码
输入Embedding编码的x_train的维度需是二维的:[送入的样本数,循环核时间展开步数]
输入一个字母进行RNN预测
问题:
用RNN实现输入一个字母,预测出下一个字母(字母使用独热编码):
输入a,预测出b
输入b,预测出c
输入c,预测出d
输入d,预测出e
输入e,预测出a
分析:
1.import
2.train,test
3.model=tf.keras.Sequential([…])
4.model.compile(…)
5.断点续训+模型保存+model.fit(…)
6.model.summary()
代码:
input_word = "abcde"
w_to_id = {'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4} # 单词映射到数值id的词典
# 只需把x_train的输入特征改为数字表示即可
x_train = [w_to_id['a'], w_to_id['b'], w_to_id['c'], w_to_id['d'], w_to_id['e']]
y_train = [w_to_id['b'], w_to_id['c'], w_to_id['d'], w_to_id['e'], w_to_id['a']]
np.random.seed(7)
np.random.shuffle(x_train)
np.random.seed(7)
np.random.shuffle(y_train)
tf.random.set_seed(7)
# 使x_train符合Embedding输入要求:[送入样本数, 循环核时间展开步数] ,
# 此处整个数据集送入所以送入,送入样本数为len(x_train);输入1个字母出结果,循环核时间展开步数为1。
x_train = np.reshape(x_train, (len(x_train), 1)) # 送入样本数是len(x_train),也就是5
y_train = np.array(y_train)
model = tf.keras.Sequential([
# 在Sequential中加一个Embedding层,把输入变成一个生成一个5行2列的可训练矩阵。因为tf.keras.layers.Embedding(词汇表大小,编码维度)
# 词汇表大小就是5,编码维度是2,即用2个数字表示一个单词
Embedding(5, 2),
SimpleRNN(3),
Dense(5, activation='softmax')
])
model.compile(optimizer=tf.keras.optimizers.Adam(0.01),
loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
metrics=['sparse_categorical_accuracy'])
checkpoint_save_path = "./checkpoint/run_embedding_1pre1.ckpt"
if os.path.exists(checkpoint_save_path + '.index'):
print('-------------load the model-----------------')
model.load_weights(checkpoint_save_path)
cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_save_path,
save_weights_only=True,
save_best_only=True,
monitor='loss') # 由于fit没有给出测试集,不计算测试集准确率,根据loss,保存最优模型
history = model.fit(x_train, y_train, batch_size=32, epochs=100, callbacks=[cp_callback])
model.summary()
注:本文来自于中国大学mooc中北京大学的人工智能实践:Tensorflow笔记,在此感谢北大的曹健老师