1.归一化
当多个特征的参数值数量级差异过大时,容易增加计算成本,需要对数据做归一化处理。最常用的归一化方法为,取数据集与其均值的差,再除以其标准差,使数据集拥有一个单位标准差,方便处理。
mean = train_data.mean(axis=0)
train_data -= mean
std = train_data.std(axis=0)
train_data /= std
test_data -= mean
test_data /= std
2.标签编码
多分类问题的标签有两种编码方式:
第一种是使用独热编码的方式,将标签扩展为 n 维向量(n为类别数),对应哪一类哪一位数据就为 1,其余为 0。需选择 categorical_crossentropy 作为损失函数。
第二种是使用整型数据直接作为其标签,那么就要使用 sparse_categorical_crossentropy 作为损失函数。