刘二大人《Pytorch深度学习与实践》08加载数据集

最新推荐文章于 2024-05-28 19:45:06 发布

py学习小白

最新推荐文章于 2024-05-28 19:45:06 发布

阅读量382

点赞数

分类专栏：笔记文章标签： pytorch 深度学习 python

本文链接：https://blog.csdn.net/m0_58327216/article/details/122846665

版权

笔记专栏收录该内容

24 篇文章 9 订阅

订阅专栏

本文介绍了如何使用PyTorch实现糖尿病数据集的预处理、创建 DiabetesDataset 类，以及构建一个简单的神经网络模型进行预测。内容涵盖了数据加载、模型定义、损失函数和优化器的选择，以及训练过程的详细步骤。

摘要由CSDN通过智能技术生成

具体代码如下所示

import numpy as np
import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader


# 创建一个糖尿病的类，并定义其继承于Dataset
# 实例化模型
class DiabetesDataset(Dataset):
    def __init__(self, filepath):
        xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32)

        # 知道这个数据集有多少个。[n,9]n行9列的矩阵，shape[0]则代表着把n取出来，即知道其有几行
        self.len = xy.shape[0]
        # x_data数据不要最后一列。y_data数据只要最后一列
        self.x_data = torch.from_numpy(xy[:, :-1])
        self.y_data = torch.from_numpy(xy[:, :[-1]])

    # 直接将x，y数据的样本返回成元组形式

    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]

        # 根据上述的self.len最后得到数据集中的行数长度，直接返回

    def __len__(self):
        return self.len


# 实例化上述创建的类
dataset = DiabetesDataset(r"C:\Users\28493\OneDrive\桌面\训练集\diabetes.csv")
# 首先将创建的dataset数据集传递到加载器Dataloader中，mini-batch的大小设置为32，将数据随机打乱顺序，num_workers是在读取数据时采用的GPU单元数
train_loader = DataLoader(dataset=dataset, batch_size=32, shuffle=True, num_workers=2)


class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        # 输入输出的维度按照输入输出数据的维度设置为，本次输入数据维度是8维，输出维度是1维
        self.linear = torch.nn.Linear(8, 1)
        """
        self.linear1 = torch.nn.Linear(8,6)
        self.linear2 = torch.nn.Linear(6,4)
        self.linear3 = torch.nn.Linear(4,1)
        """
        self.activate = torch.nn.ReLU()

    def forward(self, x):
        # 相比线性回归，多了一次激活函数激活的过程，将x输入之后，得到的线性结果，后来经过激活函数激活，范围限制在[0,1]之间
        x = self.activate(self.linear(x))
        """
        x=self.activate(self.linear1(x))
        x=self.activate(self.linear2(x))
        x=self.sigmoid(self.linear3(x))
        """
        return x


model = Model()

# 设计损失评价标准和优化器
# 引入损失评价，原线性回归是MSE，逻辑回归是BLE（二分类误差），即交叉熵损失函数
criterion = torch.nn.BCELoss(size_average=False)  # 损失值不用求均值
# 采用不同优化方法
optimizer = torch.optim.ASGD(dataset.parameters(), lr=0.01)  # model.parameter 自动完成参数的初始化操作
for epoch in range(100):
    # enumerate函数是为了确定这是第几次迭代
    for i, data in enumerate(train_loader, 0):
        # 预处理数据
        # 将X训练集中（data）的特征列数（前n-1列）作为输入，将最后一列标签列作为输出（label）,最后将它们设置为矩阵Tensor形式
        inputs, label = data
        # 前向传递
        y_pred = model(inputs)
        loss = criterion(y_pred, label)
        print(epoch, i, loss.item())
        # 反向传播
        optimizer.zero_grad()
        loss.backward()
        # 参数更新
        optimizer.step()