看完不会你揍我！！Pytorch利用文本数据建立自己的数据集- Dataset Dataloader详解附案例

阿进olipe

已于 2022-09-08 14:30:37 修改

阅读量2.3k

点赞数 11

分类专栏：神经网络 python自动化办公文章标签： pytorch python 深度学习

于 2022-09-08 14:12:12 首次发布

本文链接：https://blog.csdn.net/qq_44538973/article/details/126758703

版权

python自动化办公同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

神经网络

3 篇文章 1 订阅

订阅专栏

train_loader=DataLoader(dataset=Mydata,batch_size=20,shuffle=True,num_workers=0)

Dataset、Dataloader 简介

Dataset是Pytorch自带的建立自己数据库的一个类，可通过其建立自己的数据库。

Dataloader是Pytorch自带加载自己数据库的一个工具，可通过其加载自建数据库中的数据。

看完这个简介你应该对Dataset、Dateloader有一个基本的了解，下面我们就来谈一谈代码的实现问题。

导入相关的的库

import torch
import torch.nn as nn
from torch.utils.data import DataLoader,Dataset
import numpy as np
import xlrd

Dataset、Dateloader代码实现及详解

对于Dataset，作者是通过定义一个新类别来实现，这个类别主要实现的是三个功能:

1、从Excal(txt)文件中提取所有数据

def __init__(self,filepath):

从Excal中具体实现过程可以借鉴我的前一篇文章

python自动化办公-提取excal表格某列数据

从txt中提取数据则是利用np.loadtxt（filepath,delimiter,dtype）实现

参数详解：

filepath = 文件所在路径

delimiter = 数据间的分隔符

dtype = 将文本中的数据转换成需要的类型

2、创建每一组数据的索引

def __getitem__(self, index):

3、返回所创建数据库的长度

def __len__(self):

建立好这三个功能，一个可以实现加载、索引、确定长度的数据库的新类就建立完成，我们的工作也向前走了一大步。

下面看看从Excal（txt）中提取数据的代码实现：

class Mydataset(Dataset):
    def __init__(self,filepath):
        datalist=[]
        data = xlrd.open_workbook(filepath, encoding_override='utf-8')
        table = data.sheets()[0]  # 选定表sheet1 或sheet2  0表示sheet1 1表示sheet2
        nrows = table.nrows  # 获取行号
        ncols = table.ncols  # 获取列号
        '''
         def __init__(self,filepath):
        xy = np.loadtxt(filepath,delimiter=' ',dtype=np.float)
        self.x_data = torch.from_numpy(data_scaler.fit_transform(datalist[:,:-1]))
        self.y_data = torch.from_numpy(xy[:,[-1]])
        '''
        for i in range(0, nrows):  # 第0行为表头
            alldata = table.row_values(i)  # 循环输出excel表中每一行，即所有数据
            datalist.append(alldata)  # 创建
        datalist = np.array(datalist,dtype=np.float32) #将获取的数据全部转换成数组浮点数
        self.len = datalist.shape[0]
        self.x_data = torch.from_numpy(data_scaler.fit_transform(datalist[:,:-1])) #将特征输入归一化
        self.y_data = torch.from_numpy(datalist[:,[-1]])
        print("数据已录入")
        
    def __getitem__(self, index):
        return self.x_data[index],self.y_data[index]
    def __len__(self):
        return self.len

Dataloader 参数详解

train_loader=DataLoader(dataset=Mydata,batch_size=20,shuffle=True,num_workers=0)

Dataloader中的参数中比较有用的有四个：

dataset = 加载数据集

batch_size = 将所有数据进行打包分装（int）

shuffle = 是否随机打乱（True/None）

num_workers = 线程数（int）

过程图：

以上就是本篇文章的全部内容了，下一篇文章将用一个简单的深层神经网络来实现。

创作不易，可不可以请您动动宝贵的手指给我顶个赞呢？？

非常感谢，祝您有个愉快的一天！！