PyTorch基础入门二:PyTorch搭建一维线性回归模型

PyTorch基础入门二:PyTorch搭建一维线性回归模型

1)一维线性回归模型的理论基础

给定数据集D = \{ (x_{1}, y_{1}), (x_{2}, y_{2}, ..., (x_{m}, y_{m})\},线性回归希望能够优化出一个好的函数f(x),使得f(x_{i}) = wx_{i} + b能够和y_{i}尽可能接近。

如何才能学习到参数wb呢?很简单,只需要确定如何衡量f(x)y之间的差别,我们一般通过损失函数(Loss Funciton)来衡量:Loss = \sum_{i=1}^{m}(f(x_{i})-y_{i})^2。取平方是因为距离有正有负,我们于是将它们变为全是正的。这就是著名的均方误差。我们要做的事情就是希望能够找到w^{*}b^{*},使得:

(w^{*}, b^{*}) = arg min_{w},_{b}\sum_{i=1}^{m}(f(x_{i})-y_{i})^2

= (w^{*}, b^{*}) = arg min_{w},_{b}\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^2

均方差误差非常直观,也有着很好的几何意义,对应了常用的欧式距离。现在要求解这个连续函数的最小值,我们很自然想到的方法就是求它的偏导数,让它的偏导数等于0来估计它的参数,即:

\frac{\partial Loss_{(w, b)}}{\partial w} = 2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i})=0

\frac{\partial Loss_{(w, b)}}{\partial b} = 2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))=0

求解以上两式,我们就可以得到最优解。

2)代码实现

首先,我们需要“制造”出一些数据集:

import torch
import matplotlib.pyplot as plt


x = torch.unsqueeze(torch.linspace(-1, 1, 100), dim=1)
y = 3*x + 10 + torch.rand(x.size())
# 上面这行代码是制造出接近y=3x+10的数据集,后面加上torch.rand()函数制造噪音

# 画图
plt.scatter(x.data.numpy(), y.data.numpy())
plt.show()

我们想要拟合的一维回归模型是y = 3x+10。上面制造的数据集也是比较接近这个模型的,但是为了达到学习效果,人为地加上了torch.rand()值增加一些干扰。

上面人为制造出来的数据集的分布如下:

有了数据,我们就要开始定义我们的模型,这里定义的是一个输入层和输出层都只有一维的模型,并且使用了“先判断后使用”的基本结构来合理使用GPU加速。

class LinearRegression(nn.Module):
    def __init__(self):
        super(LinearRegression, self).__init__()
        self.linear = nn.Linear(1, 1) # 输入和输出的维度都是1
    def forward(self, x):
        out = self.linear(x)
        return out

if torch.cuda.is_available():
    model = LinearRegression().cuda()
else:
    model = LinearRegression()

然后我们定义出损失函数和优化函数,这里使用均方误差作为损失函数,使用梯度下降进行优化:

criterion = nn.MSELoss()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-2)

接下来,开始进行模型的训练。

num_epochs = 1000
for epoch in range(num_epochs):
    if torch.cuda.is_available():
        inputs = Variable(x).cuda()
        target = Variable(y).cuda()
    else:
        inputs = Variable(x)
        target = Variable(y)

    # 向前传播
    out = model(inputs)
    loss = criterion(out, target)

    # 向后传播
    optimizer.zero_grad() # 注意每次迭代都需要清零
    loss.backward()
    optimizer.step()

    if (epoch+1) %20 == 0:
        print('Epoch[{}/{}], loss:{:.6f}'.format(epoch+1, num_epochs, loss.data[0]))

首先定义了迭代的次数,这里为1000次,先向前传播计算出损失函数,然后向后传播计算梯度,这里需要注意的是,每次计算梯度前都要记得将梯度归零,不然梯度会累加到一起造成结果不收敛。为了便于看到结果,每隔一段时间输出当前的迭代轮数和损失函数。

接下来,我们通过model.eval()函数将模型变为测试模式,然后将数据放入模型中进行预测。最后,通过画图工具matplotlib看一下我们拟合的结果,代码如下:

model.eval()
if torch.cuda.is_available():
    predict = model(Variable(x).cuda())
    predict = predict.data.cpu().numpy()
else:
    predict = model(Variable(x))
    predict = predict.data.numpy()
plt.plot(x.numpy(), y.numpy(), 'ro', label='Original Data')
plt.plot(x.numpy(), predict, label='Fitting Line')
plt.show()

其拟合结果如下图:

附上完整代码:

# !/usr/bin/python
# coding: utf8
# @Time    : 2018-07-28 18:40
# @Author  : Liam
# @Email   : luyu.real@qq.com
# @Software: PyCharm
#                        .::::.
#                      .::::::::.
#                     :::::::::::
#                  ..:::::::::::'
#               '::::::::::::'
#                 .::::::::::
#            '::::::::::::::..
#                 ..::::::::::::.
#               ``::::::::::::::::
#                ::::``:::::::::'        .:::.
#               ::::'   ':::::'       .::::::::.
#             .::::'      ::::     .:::::::'::::.
#            .:::'       :::::  .:::::::::' ':::::.
#           .::'        :::::.:::::::::'      ':::::.
#          .::'         ::::::::::::::'         ``::::.
#      ...:::           ::::::::::::'              ``::.
#     ```` ':.          ':::::::::'                  ::::..
#                        '.:::::'                    ':'````..
#                     美女保佑 永无BUG

import torch
from torch.autograd import Variable
import numpy as np
import random
import matplotlib.pyplot as plt
from torch import nn


x = torch.unsqueeze(torch.linspace(-1, 1, 100), dim=1)
y = 3*x + 10 + torch.rand(x.size())
# 上面这行代码是制造出接近y=3x+10的数据集,后面加上torch.rand()函数制造噪音

# 画图
# plt.scatter(x.data.numpy(), y.data.numpy())
# plt.show()
class LinearRegression(nn.Module):
    def __init__(self):
        super(LinearRegression, self).__init__()
        self.linear = nn.Linear(1, 1) # 输入和输出的维度都是1
    def forward(self, x):
        out = self.linear(x)
        return out

if torch.cuda.is_available():
    model = LinearRegression().cuda()
else:
    model = LinearRegression()

criterion = nn.MSELoss()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-2)

num_epochs = 1000
for epoch in range(num_epochs):
    if torch.cuda.is_available():
        inputs = Variable(x).cuda()
        target = Variable(y).cuda()
    else:
        inputs = Variable(x)
        target = Variable(y)

    # 向前传播
    out = model(inputs)
    loss = criterion(out, target)

    # 向后传播
    optimizer.zero_grad() # 注意每次迭代都需要清零
    loss.backward()
    optimizer.step()

    if (epoch+1) %20 == 0:
        print('Epoch[{}/{}], loss:{:.6f}'.format(epoch+1, num_epochs, loss.data[0]))
model.eval()
if torch.cuda.is_available():
    predict = model(Variable(x).cuda())
    predict = predict.data.cpu().numpy()
else:
    predict = model(Variable(x))
    predict = predict.data.numpy()
plt.plot(x.numpy(), y.numpy(), 'ro', label='Original Data')
plt.plot(x.numpy(), predict, label='Fitting Line')
plt.show()

 

  • 28
    点赞
  • 104
    收藏
    觉得还不错? 一键收藏
  • 16
    评论
以下是使用PyTorch3层1D CNN LSTM Attention网络模型的代码示例: ```python import torch.nn as nn import torch.nn.functional as F class CNN_LSTM_Attention(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim, num_layers, dropout_prob, kernel_size, stride): super(CNN_LSTM_Attention, self).__init__() self.input_dim = input_dim self.hidden_dim = hidden_dim self.output_dim = output_dim self.num_layers = num_layers self.dropout_prob = dropout_prob self.kernel_size = kernel_size self.stride = stride self.conv_layers = nn.ModuleList() self.conv_layers.append(nn.Conv1d(in_channels=input_dim, out_channels=hidden_dim, kernel_size=kernel_size, stride=stride)) self.conv_layers.append(nn.Conv1d(in_channels=hidden_dim, out_channels=hidden_dim, kernel_size=kernel_size, stride=stride)) self.conv_layers.append(nn.Conv1d(in_channels=hidden_dim, out_channels=hidden_dim, kernel_size=kernel_size, stride=stride)) self.lstm = nn.LSTM(hidden_dim, hidden_size=hidden_dim, num_layers=num_layers, bidirectional=True, batch_first=True, dropout=dropout_prob) self.attention_layer = nn.Linear(hidden_dim*2, 1, bias=False) self.output_layer = nn.Linear(hidden_dim*2, output_dim) def forward(self, x): batch_size, seq_len, num_channels = x.size() x = x.permute(0, 2, 1) for conv_layer in self.conv_layers: x = conv_layer(x) x = F.relu(x) x = F.max_pool1d(x, kernel_size=self.kernel_size, stride=self.stride) x = x.permute(0, 2, 1) # LSTM layer h_0 = torch.zeros(self.num_layers*2, batch_size, self.hidden_dim).to(device) c_0 = torch.zeros(self.num_layers*2, batch_size, self.hidden_dim).to(device) lstm_out, (h_n, c_n) = self.lstm(x, (h_0, c_0)) lstm_out = lstm_out.view(batch_size, seq_len, self.hidden_dim*2) # Attention layer attention_weights = F.softmax(self.attention_layer(lstm_out), dim=1) attention_weights = attention_weights.permute(0,2,1) attention_weights = F.dropout(attention_weights, p=self.dropout_prob, training=self.training) output = torch.bmm(attention_weights, lstm_out).squeeze() # Output layer output = self.output_layer(output) return output ``` 在上面的代码中,我们首先定义了类`CNN_LSTM_Attention`,它继承自PyTorch的`nn.Module`基类。该类的主要部分包括三层1D卷积层、一层双向LSTM层、一层Attention层和一层输出层。 在`__init__`函数中,我们定义了输入维度`input_dim`、隐藏维度`hidden_dim`、输出维度`output_dim`、层数`num_layers`、dropout概率`dropout_prob`、卷积核大小`kernel_size`和步长`stride`。我们使用`nn.ModuleList`来保存卷积层。 在`forward`函数中,我们首先对数据进行转置,以便将序列长度放在第二维,这将便于进行卷积操作。我们然后依次通过三层1D卷积层,每层都是一个卷积层,一个ReLU激活层和一个最大池化层。 接下来,我们将数据传递给双向LSTM层,这将返回一个输出张量和一个元组,其中包含LSTM层的最后一个状态和单元状态。我们将输出张量重塑为(batch_size, seq_len, hidden_dim*2)的形状。 在Attention层中,我们首先将LSTM层的输出传递给一个线性层,以产生注意力权重。将注意力权重限制为0到1之间,以便它们可以被解释为加权和。我们随机丢弃注意力权重中的一部分,以减少过拟合,然后将它们与LSTM层的输出相乘,以得到加权和。最后,我们将加权和传递给输出层来生成最终的预测。 通过使用此三层1D CNN LSTM Attention网络,我们可以实现一种有效的序列到序列的模方法,并应用于多种语音识别、自然语言处理、视频分析等场景中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值