深度学习 2.数据预处理

Author:baiyucraft

BLog: baiyucraft’s Home

原文:《动手学深度学习》


1.pandas

  pytorch主要是对数据进行操作,那肯定得有软件读取文件中的数据然后对数据进行预处理得到我们想要操作的tensor,这就需要用到pandas了

2.创建和读入数据集

  一般处理的数据都是csv(逗号分隔值)文件,首先,我们先创建一个人工数据集,该数据集有四行三列,其中房间数量NumRooms、巷子类型Alley、房屋价格Price

import os
import pandas as pd

# 创建数据
os.makedirs(os.path.join('data'), exist_ok=True)
data_file = os.path.join('data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

# 读取数据 房间数量NumRooms、巷子类型Alley、房屋价格Price
data = pd.read_csv(data_file)
print(data)

运行结果:

3.处理缺失值

  在上文的代码中我们可以看到该数据集是有缺失值的,NaN代表的就是缺失值,为了处理缺失的数据,典型的做法有差值删除。一般我们考虑差值。

  通过位置索引iloc,我们将data分成 inputsoutputs,其中前者为data的前两列,而后者为data的最后一列。

  对于inputs中缺少的的数值NumRooms项,我们用同一列的均值替换 NaN项。

  对于inputs中的Alley,因为是类别值,我们将NaN视为一个类别。由于Alley只接受两种类型的类别值PaveNaNpandas 可以自动将此列转换为两列Alley_PaveAlley_nan。类型为Pave的行会将Alley_Pave = 1, Alley_nan = 0;反之Alley_Pave = 0, Alley_nan = 1

# 处理缺失值
# 分为inputs和outputs
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
print('======原来的inputs======\n', inputs)
# 将数值类NaN取该列数据均值
inputs = inputs.fillna(inputs.mean())
# 将类型类NaN划分为0/1
inputs = pd.get_dummies(inputs, dummy_na=True)
print('======处理的inputs======\n', inputs)

执行结果:

4.转换为tensor

  现在inputsoutputs都是数值类型,它们可以转换为张量格式:

# 转换为tensor
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print('======转换为tensor后的inputs======\n', X)
print('======转换为tensor后的outputs======\n', y)

执行结果:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值