1.读取数据集
import torch
import pandas as pd
import os
os.makedirs(os.path.join('C:/Users/15186/PycharmProjects', 'data'), exist_ok=True)
data_file = os.path.join('C:/Users/15186/PycharmProjects', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
f.write('NumRooms, Alley, Price\n')
f.write('NA, Pave, 127500\n')
f.write('2, NA, 106000\n')
f.write('4, NA, 178100\n')
f.write('NA, NA, 140000\n')
data = pd.read_csv(data_file) # 默认第一行是名称,可以用header=None来将第一行也当作数据
print(data)
注意点:1)os.path.join(‘…’,‘data’) 整个部分是创建一个文件路径,‘…’代表创建的目录的父目录,‘data’是父目录下的子目录,exist_ok=True 参数表示如果目录已经存在,函数不会抛出异常。
2)pandas.read_csv(data_file) 读数据是将第一行默认是名称。
2.处理缺失值
三个操作
1)切片
inputs = data.iloc[ : ,0:2] 即传入只包含1列和2列的数据。
2)填充数值
inputs = inputs.fillna(inputs.mean()) 将列数据的平均值填满NA
3)编码
pd.get_dummies(inputs, dummy_na = True) 类别编码,dummy_na = True参数为缺失值创建额外的虚拟变量列。
作业
import torch
import pandas as pd
import os
os.makedirs(os.path.join('C:/Users/15186/PycharmProjects', 'data'), exist_ok=True)
data_file = os.path.join('C:/Users/15186/PycharmProjects', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
f.write('id, data1, data2, data3\n')
f.write('rookie, 10, 2, 88\n')
f.write('ts, 1, 88, 77\n')
f.write('love, 200, 66,NA\n')
f.write('lan, 100,NA,NA\n')
f.write('ning,NA,NA,NA\n')
data = pd.read_csv(data_file, na_values='NA')
key_dict = data.isna().sum().to_dict()
max_value = max(key_dict.values())
max_key = [k for k, v in key_dict.items() if v == max_value]
data = data.drop(max_key, axis=1)
data = data.iloc[:, 1:3]
data = data.fillna(data.mean())
print(data)
tensor = torch.tensor(data.to_numpy(dtype=float))
print(tensor)