import os
import pandas as pd
import torch
# 创建一个人工数据集,并存储在csv文件中
os.makedirs(os.path.join('..', 'data'), exist_ok=True) # 在上级目录中创建一个新目录
data_file = os.path.join('..', 'data', 'house_tiny.csv') # 定义目录位置以及文件名
with open(data_file, 'w') as f:
f.write('NumRooms,Alley,Price\n') # 列名
f.write('NA,Pave,127500\n') # 每行表示一个数据样本
f.write('2,NA,106000\n')
f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')
data = pd.read_csv(data_file) # 通过pandas读取到csv文件
print(data)
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2] # 将有NA值的前两列保存到inputs中,无需处理的最后一列保存到outputs中
inputs = inputs.fillna(inputs.mean()) # 将所有的NA替换成平均值,只可以是数字的
print(inputs)
inputs = pd.get_dummies(inputs, dummy_na=True) # 将其中的类别值或离散值,将NAN视为一个类别
print(inputs)
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(x)
print(y)
机器学习:数据预处理
最新推荐文章于 2024-07-25 14:33:00 发布