数据预处理
import os
import pandas as pd
import torch
创建数据集
# 创建多层目录
# exist_ok:是否在目录存在时触发异常。
# 如果exist_ok为False(默认值),则在目标目录已存在的情况下触发FileExistsError异常;
# 如果exist_ok为True,则在目标目录已存在的情况下不会触发FileExistsError异常。
os.makedirs(os.path.join('..','data'),exist_ok=True)
data_file = os.path.join('..','data','house_tiny.csv')
with open(data_file,'w') as f:
# 列名
f.write('NumRooms,Alley,Price\n')
# 每一行表示一个数据样本
f.write('NA,Pave,127500\n')
f.write('2,NA,106000\n')
f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')
# 读取数据集
data = pd.read_csv(data_file)
print(data)
处理缺失值
# 处理缺失值
'''
data输出内容为
NumRooms Alley Price
0 NaN Pave 127500
1 2.0 NaN 106000
2 4.0 NaN 178100
3 NaN NaN 140000
NaN就是缺失值
'''
# 插值
# 通过位置索引iloc,分别分开前两列和最后一列
inputs, outputs = data.iloc[:,0:2],data.iloc[:,2]
# 缺少的数值用同一列的均值替换缺失值
inputs = inputs.fillna(inputs.mean())
print(inputs)
# 将缺失值改为0,不会缺失的位置改为1
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
# 将数值转换为张量格式,就可以进行数值操作
x,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x,y)