TensorFlow2.0从入门到进阶——第二章问题总结:loss值选取、优化方法、激活函数、数据集划分、归一化、批归一化、callbacks

最新推荐文章于 2023-07-04 11:34:52 发布

ccccccccccs

最新推荐文章于 2023-07-04 11:34:52 发布

阅读量1.3k

点赞数

分类专栏： TensorFlow2.0

本文链接：https://blog.csdn.net/cswoniu111/article/details/104589327

版权

TensorFlow2.0 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

看的视频——https://www.bilibili.com/video/av79196096?p=23

loss值选取：

mse(均方误差）:回归中使用

model.compile(loss = "mean_squared_error", optimizer = "adam")

categorical_crossentropy loss（交叉熵损失函数):分类问题中使用

model.compile(loss = "sparse_categorical_crossentropy",
             optimizer = "adam",
             metrics = ["accuracy"])
#sparse_categorical_crossentropy ->使得y从index先变为onehot
#categorical_crossentropy y最开始即为one-hot 
#交叉熵

https://www.jianshu.com/p/ae3932eda8f2

优化方法———sgd与adm:

https://www.cnblogs.com/guoyaohua/p/8542554.html

sgd——随机梯度下降，比其它算法用的时间长，而且可能会被困在鞍点

adm——增加了动量（指数加权平均），在梯度不变的方向速度变快，梯度变化的方向速度变慢。

激活函数——selu:

自带批归一化功能的激活函数

for _ in range(20):
    #激活函数放到批归一化之前
    model.add(keras.layers.Dense(100,activation="relu"))
    model.add(keras.layers.BatchNormalization())
    """
    #激活函数放到批归一化之后
    model.add(keras.layers.Dense(100))
    model.add(keras.layers.BatchNormalization())
    model.add(keras.layers.Activation('relu'))
    """
model.add(keras.layers.Dense(10,activation="softmax"))

与下面等价：

for _ in range(20):
    #激活函数放到批归一化之前
    #自带归一化功能的激活函数——selu
    model.add(keras.layers.Dense(100,activation="selu"))
model.add(keras.layers.Dense(10,activation="softmax"))

https://www.jianshu.com/p/3a43a6a860ef

https://www.jianshu.com/p/d216645251ce

数据集划分：

# random_state 等价于 random_seed 保证实验结果的一致性
x_train_all, x_test, y_train_all, y_test = train_test_split(housing.data, housing.target, random_state = 7, test_size = 0.1)
x_train, x_valid, y_train, y_valid = train_test_split(x_train_all, y_train_all, random_state = 11)
print(x_train.shape, y_train.shape)
print(x_valid.shape, y_valid.shape)
print(x_test.shape, y_test.shape)

归一化：

分类问题归一化：

#归一化变为均值为0方差为1
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
#fit_transform 要求为二维矩阵 因此先转换为[none,784]归一化后再转换回来[none,28,28]
#fit_transform 中的fit的功能 记录训练集中的均值方差  验证集和测试集做归一化也要用训练集的均值和方差
x_train_scaled = scaler.fit_transform(x_train.astype(np.float32).reshape(-1,1)).reshape(-1,28,28)
x_valid_scaled = scaler.transform(x_valid.astype(np.float32).reshape(-1,1)).reshape(-1,28,28)
x_test_scaled = scaler.transform(x_test.astype(np.float32).reshape(-1,1)).reshape(-1,28,28)

回归问题归一化：

scalar = StandardScaler()
x_train_scaled = scalar.fit_transform(x_train)
x_valid_scaled = scalar.transform(x_valid)
x_test_scaled = scalar.transform(x_test)

批归一化：

for _ in range(20):
    #激活函数放到批归一化之前
    model.add(keras.layers.Dense(100,activation="relu"))
    model.add(keras.layers.BatchNormalization())
    """
    #激活函数放到批归一化之后
    model.add(keras.layers.Dense(100))
    model.add(keras.layers.BatchNormalization())
    model.add(keras.layers.Activation('relu'))
    """

https://www.cnblogs.com/skyfsm/p/8453498.html

它不仅可以加快了模型的收敛速度，而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题，从而使得训练深层网络模型更加容易和稳定。

BN的本质就是利用优化变一下方差大小和均值位置，使得新的分布更切合数据的真实分布，保证模型的非线性表达能力。BN的极端的情况就是这两个参数等于mini-batch的均值和方差，那么经过batch normalization之后的数据和输入完全一样，当然一般的情况是不同的。

若神经网络训练时遇到收敛速度较慢，或者“梯度爆炸”等无法训练的情况发生时都可以尝试用BN来解决。同时，常规使用情况下同样可以加入BN来加速模型训练，甚至提升模型精度。

梯度消失：

深度神经网络反向传播链式法则前面的更新缓慢
https://www.jianshu.com/p/3f35e555d5ba
#接近于输出层的隐藏层由于其梯度相对正常，所以权值更新时也就相对正常，但是当越靠近输入层时，由于梯度消失现象，会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞。这就导致在训练时，只等价于后面几层的浅层网络的学习。

从求导结果可以看出，Sigmoid导数的取值范围在0~0.25之间，而我们初始化的网络权值通常都小于1，因此，当层数增多时，小于0的值不断相乘，最后就导致梯度消失的情况出现。同理，梯度爆炸的问题也就很明显了，就是当权值过大时，导致，最后大于1的值不断相乘，就会产生梯度爆炸。

梯度消失和梯度爆炸本质上是一样的，都是因为网络层数太深而引发的梯度反向传播中的连乘效应。

解决方法：换用Relu、LeakyRelu、Elu等激活函数
BatchNormalization BN本质上是解决传播过程中的梯度问题

callbacks:

#callback
# Tensorboard 文件夹
#modelcheckpoint文件名
#earlystopping
logdir = os.path.join('callbacks')
if not os.path.exists(logdir):
    os.mkdir(logdir)
output_model_file = os.path.join(logdir,"fashion_mnist_model.h5")
#https://blog.csdn.net/weixin_41010198/article/details/102815483
callbacks = [
        keras.callbacks.TensorBoard(logdir),
        keras.callbacks.ModelCheckpoint(output_model_file,save_best_only = True),
        keras.callbacks.EarlyStopping(patience=5,min_delta = 1e-3),
    
]
history = model.fit(x_train_scaled,y_train,epochs = 10,validation_data = (x_valid_scaled,y_valid),callbacks = callbacks)

ccccccccccs

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow2.0从入门到进阶——第二章问题总结:loss值选取、优化方法、激活函数、数据集划分、归一化、批归一化、callbacks

看的视频——https://www.bilibili.com/video/av79196096?p=23优化方法———sgd与adm:https://www.cnblogs.com/guoyaohua/p/8542554.htmlsgd——随机梯度下降，比其它算法用的时间长，而且可能会被困在鞍点adm——增加了动量（指数加权平均），在梯度不变的方向速度变快，梯度变化的方向速度...
复制链接

扫一扫