pytorch 测量模型运行时间,GPU时间和CPU时间,model.eval()介绍

1. 测量时间的方式

time.time()
time.perf_counter()
time.process_time()

time.time() 和time.perf_counter() 包括sleep()time 可以用作一般的时间测量,time.perf_counter()精度更高一些
time.process_time()当前进程的系统和用户CPU时间总和的值

测试代码:

def show_time():
    print('我是time()方法:{}'.format(time.time()))
    print('我是perf_counter()方法:{}'.format(time.perf_counter()))
    print('我是process_time()方法:{}'.format(time.process_time()))
    t0 = time.time()
    c0 = time.perf_counter()
    p0 = time.process_time()
    r = 0
    for i in range(10000000):
        r += i
    time.sleep(2)
    print(r)
    t1 = time.time()
    c1 = time.perf_counter()
    p1 = time.process_time()
    spend1 = t1 - t0
    spend2 = c1 - c0
    spend3 = p1 - p0
    print("time()方法用时:{}s".format(spend1))
    print("perf_counter()用时:{}s".format(spend2))
    print("process_time()用时:{}s".format(spend3))
    print("测试完毕")

测试结果:
在这里插入图片描述
更详细解释参考
Python3.7中time模块的time()、perf_counter()和process_time()的区别

2. model.eval(), model.train(), torch.no_grad()方法介绍

2.1 model.train()和model.eval()

我们知道,在pytorch中,模型有两种模式可以设置,一个是train模式、另一个是eval模式。

model.train()的作用是启用 Batch Normalization 和 Dropout。在train模式,Dropout层会按照设定的参数p设置保留激活单元的概率,如keep_prob=0.8,Batch Normalization层会继续计算数据的mean和var并进行更新。

model.eval()的作用是不启用 Batch Normalization 和 Dropout。在eval模式下,Dropout层会让所有的激活单元都通过,而Batch Normalization层会停止计算和更新mean和var,直接使用在训练阶段已经学出的mean和var值。

在使用model.eval()时就是将模型切换到测试模式,在这里,模型就不会像在训练模式下一样去更新权重。但是需要注意的是model.eval()不会影响各层的梯度计算行为,即会和训练模式一样进行梯度计算和存储,只是不进行反向传播。

2.2 model.eval()和torch.no_grad()

在讲model.eval()时,其实还会提到torch.no_grad()。

torch.no_grad()用于停止autograd的计算,能起到加速和节省显存的作用,但是不会影响Dropout层和Batch Normalization层的行为。

如果不在意显存大小和计算时间的话,仅仅使用model.eval()已足够得到正确的validation的结果;而with torch.zero_grad()则是更进一步加速和节省gpu空间。因为不用计算和存储梯度,从而可以计算得更快,也可以使用更大的batch来运行模型。

3. 模型推理时间方式

在测量时间的时候,与一般测试不同,比如下面的代码不正确:

start = time.time()
result = model(input)
end = time.time()

而应该采用:

torch.cuda.synchronize()
start = time.time()
result = model(input)
torch.cuda.synchronize()
end = time.time()

因为在pytorch里面,程序的执行都是异步的。
如果采用代码1,测试的时间会很短,因为执行完end=time.time()程序就退出了,后台的cu也因为python的退出退出了。
如果采用代码2,代码会同步cu的操作,等待gpu上的操作都完成了再继续成形end = time.time()

4. 一个完整的测试模型推理时间的代码

一般是首先model.eval()不启用 Batch Normalization 和 Dropout, 不启用梯度更新
然后利用mode创建模型,和初始化输入数据(单张图像)

def measure_inference_speed(model, data, max_iter=200, log_interval=50):
    model.eval()

    # the first several iterations may be very slow so skip them
    num_warmup = 5
    pure_inf_time = 0
    fps = 0

    # benchmark with 2000 image and take the average
    for i in range(max_iter):

        torch.cuda.synchronize()
        start_time = time.perf_counter()

        with torch.no_grad():
            model(*data)

        torch.cuda.synchronize()
        elapsed = time.perf_counter() - start_time

        if i >= num_warmup:
            pure_inf_time += elapsed
            if (i + 1) % log_interval == 0:
                fps = (i + 1 - num_warmup) / pure_inf_time
                print(
                    f'Done image [{i + 1:<3}/ {max_iter}], '
                    f'fps: {fps:.1f} img / s, '
                    f'times per image: {1000 / fps:.1f} ms / img',
                    flush=True)

        if (i + 1) == max_iter:
            fps = (i + 1 - num_warmup) / pure_inf_time
            print(
                f'Overall fps: {fps:.1f} img / s, '
                f'times per image: {1000 / fps:.1f} ms / img',
                flush=True)
            break
    return fps
if __name__ == "__main__":
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    # device = 'cpu'
    print(device)
    img_channel = 3
    width = 32

    enc_blks = [2, 2, 4, 8]
    middle_blk_num = 12
    dec_blks = [2, 2, 2, 2]

    width = 16
    enc_blks = [1, 1, 1]
    middle_blk_num = 1
    dec_blks = [1, 1, 1]

    net = NAFNet(img_channel=img_channel, width=width, middle_blk_num=middle_blk_num,
                 enc_blk_nums=enc_blks, dec_blk_nums=dec_blks)
    net = net.to(device)

    data = [torch.rand(1, 3, 256, 256).to(device)]
    fps = measure_inference_speed(net, data)
    print('fps:', fps)

    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    # device = 'cpu'
    print(device)
	
	# sample 2
    net = UNetSeeInDark()
    net = net.to(device)

    data = [torch.rand(1, 4, 400, 400).to(device)]
    fps = measure_inference_speed(net, data)
    print('fps:', fps)

    # gpu : 32ms  cpu: 350ms
    summary(net, input_size=(1, 4, 400, 400), col_names=["kernel_size", "output_size", "num_params", "mult_adds"])
    from ptflops import get_model_complexity_info

    macs, params = get_model_complexity_info(net, (4, 400, 400), verbose=True, print_per_layer_stat=True)
    print(macs, params)

在这里插入图片描述

5. 参考:

https://blog.csdn.net/weixin_44317740/article/details/104651434
https://zhuanlan.zhihu.com/p/547033884
https://deci.ai/blog/measure-inference-time-deep-neural-networks/
https://github.com/xinntao/BasicSR

  • 15
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: PyTorch是目前非常流行的深度学习框架之一,它提供了简洁易懂的API,使得使用者能够轻松地搭建各种神经网络模型,包括时间序列预测模型。 在PyTorch中,可以使用多种模型进行时间序列预测,其中MLP(多层感知机)是较为常见的一种。MLP使用多层隐含层对输入进行非线性变换,达到提取特征的目的。在时间序列预测问题中,我们需要考虑时间的影响,因此可以设计一种带时间步的MLP,即TMLP。 TMLP的输入是一个时间序列数据,包括多个时间步,每个时间步又包括一个或多个变量。首先,需要对数据进行归一化处理,使得每个变量的值处于相同的范围内。然后,可以使用PyTorch中的nn.Module类来定义TMLP的结构。在结构的定义中,需要定义每个隐含层的大小以及激活函数的类型,以及输出层的大小等,并且需要考虑到时间步的影响,即将前一个时间步的输出作为下一个时间步的输入。 接下来,需要进行模型的训练,使用PyTorch中的nn.MSELoss来计算预测值与真实值之间的均方误差,并使用优化算法如Adam来更新模型参数。在模型训练完成后,可以使用模型对新的时间序列数据进行预测,最终得到预测值。 ### 回答2: PyTorch是一种开源的机器学习框架,能够帮助用户创建使用GPU进行加速的深度学习模型。其中之一的应用场景即为时间序列预测,下面是一个使用PyTorch实现的多层感知机(MLP)时间序列预测模型的示例。 首先,我们需要导入必要的库。 ```python import torch import torch.nn as nn import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler ``` 然后,我们需要准备数据集。这里,我们使用了一个包含了上证指数从2011年1月1日至2020年1月1日每日收盘价的数据集。 ```python df = pd.read_csv('china_stock_market.csv') df.columns = ['date', 'open', 'high', 'low', 'close', 'vol'] df = df.set_index('date') df = df['close'] print(df.head()) ``` 接下来,我们需要对数据进行预处理,包括标准化和划分训练集和测试集。 ```python train_size = int(len(df) * 0.8) train_data = df[0:train_size].values test_data = df[train_size:].values scaler = MinMaxScaler(feature_range=(-1, 1)) train_data_normalized = scaler.fit_transform(train_data.reshape(-1, 1)) test_data_normalized = scaler.transform(test_data.reshape(-1, 1)) train_data_normalized = torch.FloatTensor(train_data_normalized).view(-1) test_data_normalized = torch.FloatTensor(test_data_normalized).view(-1) ``` 现在,我们可以定义模型了。这里,我们使用了一个具有两个隐层层的MLP模型,每个隐层层包含了64个神经元。 ```python class MLP(nn.Module): def __init__(self, input_size, hidden_size, output_size): super().__init__() self.layer1 = nn.Linear(input_size, hidden_size) self.layer2 = nn.Linear(hidden_size, hidden_size) self.layer3 = nn.Linear(hidden_size, output_size) self.relu = nn.ReLU() def forward(self, x): x = self.layer1(x) x = self.relu(x) x = self.layer2(x) x = self.relu(x) x = self.layer3(x) return x ``` 接下来,我们需要定义模型参数、优化器和损失函数,并将模型放置于GPU中。 ```python input_size = output_size = 1 hidden_size = 64 learning_rate = 0.01 epochs = 200 mlp = MLP(input_size, hidden_size, output_size) mlp.to('cuda') optimizer = torch.optim.Adam(mlp.parameters(), lr=learning_rate) criterion = nn.MSELoss() ``` 接着,我们可以开始训练模型。在每个epoch中,我们都将使用训练集的数据来更新模型参数,并计算训练集和测试集的损失值。 ```python for epoch in range(epochs): train_losses = [] test_losses = [] for i in range(input_size, train_data_normalized.shape[0]): x_train = train_data_normalized[i-input_size:i] y_train = train_data_normalized[i:i+output_size] x_train.to('cuda') y_train.to('cuda') optimizer.zero_grad() output = mlp(x_train) loss = criterion(output, y_train) loss.backward() optimizer.step() train_losses.append(loss.item()) with torch.no_grad(): for i in range(input_size, test_data_normalized.shape[0]): x_test = test_data_normalized[i-input_size:i] y_test = test_data_normalized[i:i+output_size] x_test.to('cuda') y_test.to('cuda') output = mlp(x_test) loss = criterion(output, y_test) test_losses.append(loss.item()) print('Epoch:{}, Train Loss:{:.4f}, Test Loss:{:.4f}'.format(epoch+1, np.mean(train_losses), np.mean(test_losses))) ``` 最后,我们可以使用模型来进行预测。 ```python mlp.eval() preds = [] for i in range(input_size, test_data_normalized.shape[0]): x_test = test_data_normalized[i-input_size:i] x_test.to('cuda') output = mlp(x_test) preds.append(output.item()) preds = scaler.inverse_transform(np.array(preds).reshape(-1, 1)) true = scaler.inverse_transform(test_data_normalized[input_size:].numpy().reshape(-1, 1)) print(preds[:10], true[:10]) ``` 以上便是一个使用PyTorch实现的MLP时间序列预测模型的示例。该模型可以被应用于各种不同类型的时间序列数据,如股价、气象数据等等,以进行预测和分析。 ### 回答3: 时间序列预测是机器学习中一个非常重要的任务。它涉及到将过去的时间序列数据作为输入,预测未来的数据。在实施时间序列预测任务时,使用多层感知器(MLP)是很常见的。在这里我们将使用pytorch来构建一个MLP时间序列预测模型,在下面的细节中说明。 步骤1:数据预处理与可视化 首先,我们需要获取和可视化时间序列数据。 为了方便展示,我们可以使用pytorch自带的数据集来生成一个简单的时间序列。 ``` import torch import matplotlib.pyplot as plt # 建立一个简单的二次函数时间序列,包含50个点 x_train = torch.linspace(0, 1, 50) y_train = x_train ** 2 # 可视化数据 plt.plot(x_train, y_train, 'ro') plt.show() ``` 步骤2:训练集和测试集划分 接下来,我们需要对时间序列数据进行训练集和测试集的划分,以便在模型的训练期间对其进行优化和检测。 ``` # 将训练集与测试集划分为2:1 train_size = int(len(x_train) * 0.67) test_size = len(x_train) - train_size train_x, test_x = x_train[:train_size], x_train[train_size:] train_y, test_y = y_train[:train_size], y_train[train_size:] ``` 步骤3:准备网络结构 在这个步骤中,我们需要将模型网络所需要的输入的特性和输出进行定义。在这个例子中,我们将考虑一个3层MLP网络结构,有两个隐含层,每个隐含层含有16个神经元。 ``` import torch.nn as nn class MLP(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(MLP, self).__init__() self.fc1 = nn.Linear(input_dim, hidden_dim) self.relu1 = nn.ReLU() self.fc2 = nn.Linear(hidden_dim, hidden_dim) self.relu2 = nn.ReLU() self.fc3 = nn.Linear(hidden_dim, output_dim) def forward(self, x): out = self.fc1(x) out = self.relu1(out) out = self.fc2(out) out = self.relu2(out) out = self.fc3(out) return out input_dim = 1 hidden_dim = 16 output_dim = 1 model = MLP(input_dim, hidden_dim, output_dim) ``` 步骤4:训练模型 接下来,我们开始训练模型。按照传统的设置,我们将使用均方误差损失函数和随机梯度下降优化器。 ``` import torch.optim as optim # 均方误差损失函数 criterion = nn.MSELoss() # 随机梯度下降优化器 optimizer = optim.SGD(model.parameters(), lr=0.01) # 训练模型 epochs = 1000 for epoch in range(epochs): epoch += 1 inputs = train_x targets = train_y # 清除所有梯度 optimizer.zero_grad() # 计算网络的输出 outputs = model(inputs.unsqueeze(1)) # 损失函数 loss = criterion(outputs, targets.unsqueeze(1)) # 反向传播以及优化器更新 loss.backward() optimizer.step() if epoch % 100 == 0: # 每100次迭代后输出一次结果 print("Epoch {}, Loss: {}" .format(epoch, loss.item())) ``` 步骤5:测试模型 现在模型已经训练了1000次,我们可以使用测试集上的数据来测试模型的性能。 ``` # 关闭梯度计算 with torch.no_grad(): # 测试阶段 model.eval() # 在测试数据上进行前向传播 y_predicted = model(test_x.unsqueeze(1)) # 计算测试数据的损失函数 test_loss = criterion(y_predicted, test_y.unsqueeze(1)) print("Test loss: ", test_loss.item()) # 打印测试损失 # 绘制预测结果曲线 plt.plot(test_x.numpy(),test_y.numpy(),'ro',label='Original data') plt.plot(test_x.numpy(),y_predicted.numpy(),label='Fitted line') plt.legend() plt.show() ``` 以上就是如何使用pytorch进行MLP时间序列预测模型的示例。在实践中,模型的表现可能会受到诸多影响,例如网络结构、数据稳定性等,需要有相应的技巧性才能提升其预测精度。因此,使用这个示例来进一步扩展和改进模型是非常有必要的。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值