import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import matplotlib.pyplot as plt
%matplotlib inline
data=keras.datasets.imdb #导入电影评分数据集
max_word=10000
(x_train,y_train),(x_test,y_test)=data.load_data(num_words=max_word)#考虑编码中前10000个单词
x_train.shape
x_train[0] #是一个整数的序列,一个整数代表一个单词.
[len(x)for x in x_train] #发现文本长度不相等
x_train=keras.preprocessing.sequence.pad_sequences(x_train,300) #将长度填充到300
x_test=keras.preprocessing.sequence.pad_sequences(x_test,300)
[len(x)for x in x_train]
#建立模型
model=keras.models.Sequential()
model.add(layers.Embedding(input_dim=10000,output_dim=50,input_length=300)) #嵌入层将正整数(下标)转换为具有固定大小的向量
model.add(layers.Flatten())
model.add(layers.Dense(128,activation='relu'))
model.add(layers.Dense(64,activation='relu'))
model.add(layers.Dense(1,activation='sigmoid')) #标签为正面评价和负面评价
model.summary()
model.compile(optimizer=keras.optimizers.Adam(lr=0.001),
loss='binary_crossentropy',
metrics=['acc'])
history=model.fit(x_train,y_train,epochs=15,batch_size=256,validation_data=(x_test,y_test))
plt.plot( history.epoch, history.history.get('acc'),label='acc')
plt.plot( history.epoch, history.history.get('val_acc'),label='val_acc')
plt.legend()
plt.plot( history.epoch, history.history.get('loss'),label='loss')
plt.plot( history.epoch, history.history.get('val_loss'),label='val_loss')
plt.legend()
注意Embedding层只能用作模型中的第一层。
Keras
中的Embedding
层本质上是一个对输入数据降维过程,其中Embedding
函数有三个容易混淆的参数,分别是:
- input_dim
- output_dim
- input_length
input_dim 指的是输入数据的维度,即字典长度
output_dim 指的是输出数据的维度,意思是经过Embedding层降维后的数据由多少个元素组成,
input_length 指的是输入数据的长度,意思是输入数据的从长度是多少,(数据数据是由多个重复的元素安一定顺序组合而成的)
layers.Embedding(input_dim=10000,output_dim=50,input_length=300)
表示输入的单词维度为10000,需要转成维度为50。一次输入300个单词。