Pytorch深度学习---(2)生成数据集(包括使用d2l包和不使用d2l包的详细代码)

使用线性模型参数w=[2,−3.4]⊤、b=4.2 和噪声项生成数据集及其标签:

可以视为模型预测和标签时的潜在观测误差。 在这里我们认为标准假设成立,即�服从均值为0的正态分布。 为了简化问题,我们将标准差设为0.01。

 使用d2l包:

from d2l import torch as d2l
import torch
import matplotlib.pyplot as plt


# w: 权重向量(形状为 (特征数,)),num_examples: 样本数量,len(w) 是特征数量
def synthetic_data(w, b, num_examples):  # @save
    # 用于生成正态分布随机数的函数,这将生成一个形状为(num_examples, len(w))的张量
    X = torch.normal(0, 1, (num_examples, len(w)))  # X:(1000,2)
    # 执行矩阵乘法的函数(矩阵-向量积)
    y = torch.matmul(X, w) + b  # y:(1000,)
    # 添加噪声
    # 生成一个与y形状相同的张量,其中的值是从均值为0、标准差为0.01的正态分布中抽取的随机数,模拟现实中的测量误差或数据噪声
    y += torch.normal(0, 0.01, y.shape)
    return X, y.reshape((-1, 1))  # y.reshape((-1, 1):(1000,1)


true_w = torch.tensor([2, -3.4])  # w:(2,)
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)
print('features:', features[0],'\nlabel:', labels[0])
# 用于设置随后生成的图形的尺寸
d2l.set_figsize()
# 绘制features张量第二列的数据点,并将这些点与labels张量对应的标签关联起来
# scatter函数用来绘制散点图,至少两个参数:x轴和y轴的数据点
# 首先从features张量中选择第二列,.detach()方法用于从当前计算图中分离出这个张量,使其不再参与梯度计算,.numpy()方法将张量转换为NumPy数组,这是matplotlib绘图所需的格式
# features[:, 1]表示features中第二列的所有值组成的一维张量
d2l.plt.scatter(features[:, 1].detach().numpy(), labels.detach().numpy(), 1)
plt.show()

结果图: 

 不使用d2l包:

from d2l import torch as d2l
import torch
import matplotlib.pyplot as plt


# w: 权重向量(形状为 (特征数,)),num_examples: 样本数量,len(w) 是特征数量
def synthetic_data(w, b, num_examples):  # @save
    # 用于生成正态分布随机数的函数,这将生成一个形状为(num_examples, len(w))的张量
    X = torch.normal(0, 1, (num_examples, len(w)))  # X:(1000,2)
    # 执行矩阵乘法的函数(矩阵-向量积)
    y = torch.matmul(X, w) + b  # y:(1000,)
    # 添加噪声
    # 生成一个与y形状相同的张量,其中的值是从均值为0、标准差为0.01的正态分布中抽取的随机数,模拟现实中的测量误差或数据噪声
    y += torch.normal(0, 0.01, y.shape)
    return X, y.reshape((-1, 1))  # y.reshape((-1, 1):(1000,1)


true_w = torch.tensor([2, -3.4])  # w:(2,)
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)
print('features:', features[0],'\nlabel:', labels[0])
# 绘图
plt.figure(figsize=(6, 4))  # 设置图形大小
# 绘制features张量第二列的数据点,并将这些点与labels张量对应的标签关联起来
# scatter函数用来绘制散点图,至少两个参数:x轴和y轴的数据点
# 首先从features张量中选择第二列,.detach()方法用于从当前计算图中分离出这个张量,使其不再参与梯度计算,.numpy()方法将张量转换为NumPy数组,这是matplotlib绘图所需的格式
# features[:, 1]表示features中第二列的所有值组成的一维张量
plt.scatter(features[:, 1].detach().numpy(), labels.detach().numpy(), s=1)
plt.xlabel('Feature')
plt.ylabel('Label')
plt.title('Scatter plot of features vs labels')
plt.show()

结果图: 

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch是一个用于深度学习的开源框架,它提供了一组工具和接口,使得我们可以轻松地进行模型训练、预测和部署。在PyTorch中,数据处理是深度学习应用的重要部分之一。 PyTorch中的数据处理主要涉及以下几个方面: 1.数据预处理:包括数据清洗、数据归一化、数据增强等操作,以提高模型的鲁棒性和泛化能力。 2.数据加载:PyTorch提供了多种数据加载方式,包括内置的数据集、自定义的数据集和数据加载器等,以便我们更好地管理和使用数据。 3.数据可视化:为了更好地理解数据和模型,PyTorch提供了多种数据可视化工具,如Matplotlib、TensorBoard等。 下面是一个简单的数据预处理示例,展示如何将图像进行归一化和数据增强: ```python import torch import torchvision.transforms as transforms from torchvision.datasets import CIFAR10 # 定义一个数据预处理管道 transform_train = transforms.Compose([ transforms.RandomCrop(32, padding=4), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.2023, 0.1994, 0.2010]) ]) # 加载CIFAR10数据集,进行预处理 trainset = CIFAR10(root='./data', train=True, download=True, transform=transform_train) trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2) ``` 在上面的例子中,我们首先定义了一个数据预处理管道,其中包括了对图像进行随机裁剪、水平翻转、归一化等操作。然后,我们使用PyTorch内置的CIFAR10数据集,并将其预处理后,使用DataLoader进行批量加载。这个过程可以帮助我们更好地管理和使用数据,同时提高模型的训练效率和泛化能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值