三、线性回归
- 构建简单的人工数据集
%matplotlib inline
import torch
from IPython import display
from matplotlib import pyplot as plt
import numpy as np
import random
num_inputs = 2 #输入特征数为2
num_examples = 1000 #训练数据集样本数
true_w = [2, -3.4] #使⽤线性回归模型真实权重
true_b = 4.2 #使⽤线性回归模型真实偏差
## 设置输入样本的特征值,在0与1之间
features = torch.from_numpy(np.random.normal(0, 1, (num_examples,num_inputs)))
## 根据真实特征值计算真实标签
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] +true_b
## 为真实标签添加噪声,噪声项服从均值为0、标准差为0.01的正态分布。
labels += torch.from_numpy(np.random.normal(0, 0.01,
size=labels.size()))
print(features[:])
提示:python中numpy.random.normal(loc=0,scale,size=shape) ,意义如下:
参数loc(float):正态分布的均值,对应着这个分布的中心。loc=0说明这一个以Y轴为对称轴的正态分布,
参数scale(float):正态分布的标准差,对应分布的宽度,scale越大,正态分布的曲线越矮胖,scale越小,曲线越高瘦。
参数size(int 或者整数元组):输出的值赋在shape里,默认为None。
-
matplotlib中plt.scatter()参数详解
scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None,
vmin=None, vmax=None, alpha=None, linewidths=None, verts=None,
edgecolors=None, hold=None, data=None, **kwargs) 只解释前三个:
x,y:输入数据,array_like,shape(n,)
s:点的大小:标量或array_like,shape(n,),可选 大小以点数^ 2。默认是rcParams ['lines.markersize'] ** 2
。 -
读取数据 在训练模型的时候,我们需要遍历数据集并不断读取⼩批量数据样本。这⾥我们定义⼀个函数,它每次返回 batch_size(批量⼤⼩)个随机样本的特征和标签。
def data_iter(batch_size, features, labels):
num_examples = len(features)
indices = list(range(num_examples))
random.shuffle(indices) # 样本的读取顺序是随机的
for i in range(0, num_examples, batch_size):
j = torch.LongTensor(indices[i: min(i + batch_size,
num_examples)]) # 最后⼀次可能不⾜⼀个batch
yield features.index_select(0, j), labels.index_select(0,
j)
#让我们读取第⼀个⼩批量数据样本并打印。每个批量的特征形状为(10, 2),分别对应批量⼤⼩和输⼊个数;标签形状为批量⼤⼩。
batch_size = 10
for X, y in data_iter(batch_size, features, labels):
print(X, y)