回归VS分类
对连续型变量做预测叫回归,对离散型变量做预测叫分类
线性回归的主要任务是什么?
线性回归的任务是找到一个从特征空间X到输出空间Y的最优的线性映射函数。
损失:
我们要做的是依据我们的训练集,选取最优的θ,在我们的训练集中让h(x)尽可能接近真实的值。h(x)和真实的值之间的差距,我们定义了一个函数来描述这个差距,这个函数称为损失函数,表达式如下:
这里的这个损失函数就是著名的最小二乘损失函数,这里还涉及一个概念叫最小二乘法,这里不再展开了。
我们要选择最优的θ,使得h(x)最近进真实值。这个问题就转化为求解最优的θ,使损失函数J(θ)取最小值。那么如何解决这个转化后的问题呢?这又牵扯到一个概念:梯度下降(Radient Descent) 。
代码:
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch.autograd import Variable
import numpy as np
import random
from torch import nn
loss1=[] #记录损失函数
torch.manual_seed(2017)
# 读入数据 x 和 y
x = torch.unsqueeze(torch.linspace(-1, 1, 200), dim=1)
y = 2*x + 5+ torch.rand(x.size())
# 上面这行代码是制造出接近y=2x+5的数据集,后面加上torch.rand()函数制造噪音
plt.scatter(x.data.numpy(),y.data.numpy())
plt.show()
class LinearRegression(nn.Module):
def __init__(self):
super(LinearRegression, self).__init__()
self.linear = nn.Linear(1, 1) # 输入和输出的维度都是1
def forward(self, x):
out = self.linear(x)
return out
if torch.cuda.is_available():
model = LinearRegression().cuda()
else:
model = LinearRegression()
criterion = nn.MSELoss()#定义损失函数为均方误差
optimizer = torch.optim.SGD(model.parameters(), lr=1e-2)#梯度下降进行优化
num_epochs = 1000
for epoch in range(num_epochs):
if torch.cuda.is_available():
inputs = Variable(x).cuda()
target = Variable(y).cuda()
else:
inputs = Variable(x)
target = Variable(y)
#每5次记录并显示一次回归的直线
if (epoch + 1) % 5 == 0:
model.eval()
if torch.cuda.is_available():
predict = model(Variable(x).cuda()) # 调用model函数,启示调用的是上面linear函数中的线性回归
predict = predict.data.cpu().numpy()
else:
predict = model(Variable(x))
predict = predict.data.numpy()
# plt.plot(x.numpy(), y.numpy(), 'ro', label='Original Data') # 这个输入的是带有噪音的点(原始数据)
plt.plot(x.numpy(), predict, label='Fitting Line') # 输入的是x和线性回归后的直线
# plt.show()
# 向前传播
out = model(inputs)
loss = criterion(out, target)
loss1.append(loss)
# 向后传播
optimizer.zero_grad() # 注意每次迭代都需要清零
loss.backward()
optimizer.step()
if (epoch + 1) % 20 == 0:
print('Epoch[{}/{}], loss:{:.6f}'.format(epoch + 1, num_epochs, loss.item()))
model.eval()
if torch.cuda.is_available():
predict = model(Variable(x).cuda())#调用model函数,启示调用的是上面linear函数中的线性回归
predict = predict.data.cpu().numpy()
else:
predict = model(Variable(x))
predict = predict.data.numpy()
plt.plot(x.numpy(), y.numpy(), 'ro', label='Original Data')#这个输入的是带有噪音的点(原始数据)
plt.plot(x.numpy(), predict, label='Fitting Line')#输入的是x和线性回归后的直线
plt.show()
plt.figure()
plt.plot(loss1)
plt.show()
生成的数据集:
最终的回归值
损失值的变化