- softmax层,可以将神经网络的输出转变为一个概率分布
- 它要求每个样本必须属于某个类别,且所有可能的样本均被覆盖
- softmax各个样本分量之和为1
可能要用到两种tf.keras交叉熵
- categorical_crossentropy
- sparse_categorical_crossentropy
代码1:
#本代码基于tensorflow2.0
#使用的为Fashion MNIST数据集
#使用loss函数为sparse_categorical_crossentropy
import tensorflow as tf
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
#1 导入数据
(train_image, train_lable), (test_image, test_label) = tf.keras.datasets.fashion_mnist.load_data()
train_image.shape #查看图片的格式
train_lable.shape #查看图片标签
test_image.shape, test_label.shape #查看测试集图片格式和标签
plt.imshow(train_image[0]) #查看其中一个图片
np.max(train_image[0]) #可以看出图片的颜色最大值为255
train_image = train_image/255 #这两行用来将数据进行归一化,都变成0-1之间的数
test_image = test_image/255
#2 建立模型
model = tf.keras.Sequential()
model.add(tf.keras.layers.Flatten(input_shape=(28,28)))
#因为28*28的数据是不能够进行Dense运算的,要用上面一行转化为一维数据(扁平化为很长的向量)
model.add(tf.keras.layers.Dense(128, activation='relu')) #一个隐藏层
model.add(tf.keras.layers.Dense(10, activation='softmax')) #输出一个概率值
model.summary()
#3 模型编译
model.compile(optimizer='adam',
loss='sparse_categorical_crossentropy', #数字编码要使用这个loss函数
metrics=['acc']
)
#4 模型训练
model.fit(train_image, train_lable, epochs=5)
#5 模型评价
model.evaluate(test_image, test_label) #在测试集上进行评价
代码2:
#本代码基于tensorflow2.0
#使用的为Fashion MNIST数据集
#使用loss函数为categorical_crossentropy,要求label为独热编码
import tensorflow as tf
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
#1 导入数据
(train_image, train_lable), (test_image, test_label) = tf.keras.datasets.fashion_mnist.load_data()
train_image.shape #查看图片的格式
train_lable.shape #查看图片标签
test_image.shape, test_label.shape #查看测试集图片格式和标签
plt.imshow(train_image[0]) #查看其中一个图片
np.max(train_image[0]) #可以看出图片的颜色最大值为255s
train_image = train_image/255 #这两行用来将数据进行归一化,都变成0-1之间的数
test_image = test_image/255
#1.5 对标签进行独热编码
train_label_onehot = tf.keras.utils.to_categorical(train_lable)
test_label_onehot = tf.keras.utils.to_categorical(test_label)
#2 建立模型
model = tf.keras.Sequential()
model.add(tf.keras.layers.Flatten(input_shape=(28,28)))
#因为28*28的数据是不能够进行Dense运算的,要用上面一行转化为一维数据(扁平化为很长的向量)
model.add(tf.keras.layers.Dense(128, activation='relu')) #一个隐藏层
model.add(tf.keras.layers.Dense(10, activation='softmax')) #输出一个概率值
model.summary()
#3 模型编译
model.compile(optimizer='adam',
loss='categorical_crossentropy', #独热编码要使用这个loss函数
metrics=['acc']
)
#4 模型训练
model.fit(train_image, train_label_onehot, epochs=5)
#5 模型评价
model.evaluate(test_image, test_label_onehot) #在测试集上进行评价
#6 模型预测
predict = model.predict(test_image)
predict.shape #可以查看到每个输出为长度为10的向量
np.argmax(predict[0]) #可以得到每个输出中概率最大的分量