练习使⽤pandas预处理原始数据,并将原始数据转换为张量格式。
读取数据集
#%% 创建一个人工数据集,存储在CSV(逗号分隔)文件中
import os
os.makedirs(os.path.join('..','data'),exist_ok=True)
data_file = os.path.join('..','data','house_tiny.csv')
with open(data_file, 'w') as f:
f.write('NumRooms,Alley,Price\n') #列名 房间数量、巷⼦类型和房屋价格
f.write('NA,Pave,127500\n') #每行表示一个数据样本
f.write('2,NA,106000\n')
f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')
import pandas as pd
data = pd.read_csv(data_file)
print(data)
处理缺失值
典型的⽅法包括插值法和删除法,其中插值法⽤⼀个替代值弥补缺失值,⽽删除法则直接忽略缺失值
#%% 插值法
inputs,outputs= data.iloc[:,0:2],data.iloc[:,2]
inputs = inputs.fillna(inputs.mean())
print(inputs)
inputs = pd.get_dummies(inputs,dummy_na=True)
print(inputs)
转换为张量格式
#%% 数值——>张量
import torch
X,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
X,y
1. 删除缺失值最多的列。
x = data.isna().sum()
dfs = data.drop(columns=x.index[x.argmax()])
2. 将预处理后的数据集转换为张量格式。
a= a.numpy()
b = pd.DataFrame(a)
df = b.fillna(b.mean())
df