训练超模型

超模型

对于初级炼丹师,往往苦于调参。那么有没有什么高科技炼丹炉,可以让我们只要按下按钮,就可以自行调整,炼出一炉品质上佳的仙丹呢?
那肯定是有的,下面,请允许我隆重介绍KerasTuner。在下面的例子里,将使用KerasTuner进行超参数搜索,从现在开始,你炼的模型就是超模型啦~
KerasTuner并没有限制我们的操作空间,它仍允许我们进行大量自定义。当然,它也是十分便利的,我们只要简单的设定一下搜索空间,就可以去摸鱼了。不过,你的显卡就要替你受罪了。训练超模型需要的算力较大,所以,没GPU的同学不建议使用。

在我们开始之前,先给出其官方文档:
KerasTuner
这会有助于理解代码。

简单例子

下面先来一个简单的超模型

模型定义

这里继承父类keras_tuner.HyperModel,我们需要编写其中的build方法与fit方法。其中为了将模型定义与超参数分离开,编写了一个model方法,这样有助于提高代码的条理性与可读性。

from tensorflow import keras
import keras_tuner

class HyperModel(keras_tuner.HyperModel):
    def model(self,units,num_layers,lr):
        model = keras.Sequential()
        model.add(keras.layers.Rescaling(scale=1 / 127.5, offset=-1))
        model.add(keras.layers.Flatten())
        for i in range(num_layers):
            model.add(keras.layers.Dense(units, activation='relu'))
        model.add(keras.layers.Dropout(rate=0.3))
        model.add(keras.layers.Dense(10, activation="softmax"))
        model.compile(
            optimizer=keras.optimizers.Adam(learning_rate=lr),
            loss="categorical_crossentropy",
            metrics=["accuracy"],
        )
        return model
    def build(self, hp):

        units = hp.Int("units", min_value=64, max_value=256, step=32)
        num_layers = hp.Int("num_layers",min_value=1,max_value=3)
        lr = hp.Float("lr",min_value=1e-5,max_value=1e-3,sampling="log")

        return self.model(units,num_layers,lr) 
    def fit(self, hp, model, x_train,y_train, **kwargs):
        return model.fit(
            x_train,
            y_train,
            **kwargs
        )

利用mnist测试

简单的例子用简单的数据进行测试,这里就使用经典的手写数字数据集吧。

from tensorflow import keras
import numpy as np

(x, y), (x_test, y_test) = keras.datasets.mnist.load_data()

x = np.expand_dims(x,axis=-1)
x_test = np.expand_dims(x_test,axis=-1)

num_classes =10
y = keras.utils.to_categorical(y, num_classes)
y_test = keras.utils.to_categorical(y_test,num_classes)

开始搜索

这里设定最多搜10次,每次迭代2个epoch。

tuner = keras_tuner.RandomSearch(
    HyperModel(),
    objective="val_accuracy",
    max_trials=10,
    overwrite=True,
    directory="my_dir",
    project_name="tune_hypermodel",

)
tuner.search(x,y,epochs=2,batch_size=128,validation_data=(x_test, y_test),workers =8)

用最棒的超参数构建模型

我们需要使用在验证集表现最好的超参数构建模型,进行训练。
首先看看每次的结果是咋样的:

tuner.results_summary()

构建模型并训练

hypermodel = HyperModel()
best_hp = tuner.get_best_hyperparameters()[0]
model = hypermodel.build(best_hp)
hypermodel.fit(best_hp, model, x, y, epochs=20,batch_size=128,validation_data=(x_test, y_test),workers =8)
model.save('demo_hypermodel.h5')

超·MobileNetV2

好了,通过上面的例子,相信你已经对KerasTuner有一定的了解了。下面我们正式构建可以用于比赛的超·MobileNetV2

模型定义

下面的模型将会稍微复杂点。我们将数据增强的参数也纳入了搜索范围,而对模型的参数,我们搜索学习率和dropout比率。
事实上,搜索什么参数不一定按照这样定义,你完全可以根据自己的需求来,这里仅做一个简单的示范。
要注意的是,并不是把所有的参数都纳入搜索就是最好的,要考虑实际情况。

from tensorflow.keras.preprocessing.image import ImageDataGenerator
class HyperMobilenet_v2(keras_tuner.HyperModel):
    def __init__(self,input_size,batch_size,train_root):
        super(keras_tuner.HyperModel, self).__init__()
        self.input_size = input_size
        self.batch_size = batch_size
        self.train_root = train_root
    def model(self,Dropout_rate,lr):
        model = Mobilenet_v2(
            input_size=self.input_size,
            weights='imagenet',
            Dropout_rate=Dropout_rate,
            Trainable=True
        )
        model.compile(optimizer=keras.optimizers.Adam(learning_rate=lr),
                    loss=keras.losses.CategoricalCrossentropy(),
                    metrics=["accuracy"])
        return model
    def build(self, hp):
        lr = hp.Float("lr",min_value=1e-5,max_value=1e-3,sampling="log")
        Dropout_rate = hp.Choice("Dropout_rate",values =[0.1,0.2,0.3,0.4,0.5,0.6])
        return self.model(Dropout_rate,lr) 
    
    def dataset(self, hp):

        train_root = self.train_root

        zoom_range = hp.Float("zoom_range",min_value=0.1,max_value=0.3,sampling="linear")
        channel_shift_range = hp.Int("channel_shift_range",min_value=0,max_value=30,step=10)

        train_generator = ImageDataGenerator(rotation_range=360,
                                            zoom_range =zoom_range,
                                            horizontal_flip = True,
                                            validation_split =0.2,
                                            channel_shift_range =channel_shift_range
                                            )
        train_dataset = train_generator.flow_from_directory(batch_size=self.batch_size,
                                                            directory=train_root,
                                                            shuffle=True,
                                                            target_size=(self.input_size,self.input_size),
                                                            subset='training')
        valid_dataset = train_generator.flow_from_directory(batch_size=self.batch_size,
                                                            directory=train_root,
                                                            shuffle=True,
                                                            target_size=(self.input_size,self.input_size),
                                                            subset='validation')
        return train_dataset,valid_dataset

    def fit(self, hp, model,**kwargs):
        
        train_dataset,valid_dataset = self.dataset(hp)

        return model.fit(
            train_dataset,
            validation_data=valid_dataset,
            **kwargs
        ) 

开始搜索

因为我们搜索的超参数比上面例子的更多,我们的搜索次数设定得更大些,每次的epochs也增加到10次。你也可以调得更大,但这样需要的时间会更多。

tuner = keras_tuner.BayesianOptimization(
    hypermodel =HyperMobilenet_v2(input_size=128,batch_size=128,train_root='./train/'),
    objective="val_accuracy",
    max_trials=50,
    overwrite=True,
    directory="my_dir",
    project_name="tune_hypermodel",
)
tuner.search(epochs=10,workers=8)

重新训练

用表现最好的超参数构建模型。

hypermodel = HyperMobilenet_v2(input_size=128,batch_size=128,train_root='./train/')
best_hp = tuner.get_best_hyperparameters()[0]
model = hypermodel.build(best_hp)

加入回调进行训练。

import time
import os
save_path = './models_save/%s' % (time.strftime('%Y_%m_%d_%H_%M_%S'))
reduce_lr = keras.callbacks.ReduceLROnPlateau(monitor='val_loss', factor=0.2,patience=10,verbose=1)
early_stop =keras.callbacks.EarlyStopping(monitor='val_accuracy', patience=15,verbose=1)
save_weights = keras.callbacks.ModelCheckpoint(save_path + "/model_{epoch:02d}_{val_accuracy:.4f}.h5",
                                                   save_best_only=True, monitor='val_accuracy')

hypermodel.fit(
    best_hp, 
    model,
    epochs=100,
    workers =8,
    callbacks=[save_weights,early_stop,reduce_lr]
    )
  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
YOLOv8是一种用于目标检测的神经网络模型,它基于YOLO(You Only Look Once)算法进行改进。YOLOv8的参数是指在训练过程中需要设置的参数,下面是一些常见的参数: 1. 学习率(Learning Rate):控制模型训练过程中权重的更新速度。较大的学习率可以加快收敛速度,但可能导致训练不稳定;较小的学习率可以提高训练稳定性,但可能需要更长的训练时间。 2. 批大小(Batch Size):指每次迭代训练时使用的样本数量。较大的批大小可以加快训练速度,但可能导致内存溢出或显存不足;较小的批大小可以提高模型的泛化能力,但训练速度较慢。 3. 迭代次数(Epochs):指整个数据集在训练过程中被遍历的次数。较多的迭代次数可以提高模型的准确性,但可能导致过拟合;较少的迭代次数可能无法充分训练模型。 4. 权重衰减(Weight Decay):一种正则化技术,用于控制模型参数的大小。较小的权重衰减可以减少过拟合的风险,但可能导致欠拟合;较大的权重衰减可能导致模型失去一些重要特征。 5. 学习率衰减(Learning Rate Decay):用于控制学习率在训练过程中的变化。逐渐降低学习率可以提高模型的稳定性和收敛性。 这些参数的具体取值需要根据具体问题和数据集进行调整和优化,一般可以通过实验和验证集上的表现来选择最佳的参数组合。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值