《动手学深度学习》学习笔记2

本文介绍了如何使用Pandas处理CSV数据集中的缺失值,包括使用均值填充和独热编码(dummy_na=True),最后将处理后的数据转换为PyTorch张量以便于模型训练。
摘要由CSDN通过智能技术生成

数据预处理

import os
import pandas as pd
import torch

创建数据集

# 创建多层目录
# exist_ok:是否在目录存在时触发异常。
# 如果exist_ok为False(默认值),则在目标目录已存在的情况下触发FileExistsError异常;
# 如果exist_ok为True,则在目标目录已存在的情况下不会触发FileExistsError异常。
os.makedirs(os.path.join('..','data'),exist_ok=True)
data_file = os.path.join('..','data','house_tiny.csv')
with open(data_file,'w') as f:
    # 列名
    f.write('NumRooms,Alley,Price\n')
    # 每一行表示一个数据样本
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')
# 读取数据集
data = pd.read_csv(data_file)
print(data)

处理缺失值

# 处理缺失值
'''
data输出内容为
   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000
NaN就是缺失值
'''
# 插值
# 通过位置索引iloc,分别分开前两列和最后一列
inputs, outputs = data.iloc[:,0:2],data.iloc[:,2]
# 缺少的数值用同一列的均值替换缺失值
inputs = inputs.fillna(inputs.mean())
print(inputs)
# 将缺失值改为0,不会缺失的位置改为1
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
# 将数值转换为张量格式,就可以进行数值操作
x,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x,y)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值