深度学习2 数据预处理

1.读取数据集

import torch
import pandas as pd
import os
os.makedirs(os.path.join('C:/Users/15186/PycharmProjects', 'data'), exist_ok=True)
data_file = os.path.join('C:/Users/15186/PycharmProjects', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms, Alley, Price\n')
    f.write('NA, Pave, 127500\n')
    f.write('2, NA, 106000\n')
    f.write('4, NA, 178100\n')
    f.write('NA, NA, 140000\n')
data = pd.read_csv(data_file)  # 默认第一行是名称,可以用header=None来将第一行也当作数据
print(data)

在这里插入图片描述

注意点:1)os.path.join(‘…’,‘data’) 整个部分是创建一个文件路径,‘…’代表创建的目录的父目录,‘data’是父目录下的子目录,exist_ok=True 参数表示如果目录已经存在,函数不会抛出异常。
2)pandas.read_csv(data_file) 读数据是将第一行默认是名称。

2.处理缺失值

三个操作
1)切片
inputs = data.iloc[ : ,0:2] 即传入只包含1列和2列的数据。
2)填充数值
inputs = inputs.fillna(inputs.mean()) 将列数据的平均值填满NA
3)编码
pd.get_dummies(inputs, dummy_na = True) 类别编码,dummy_na = True参数为缺失值创建额外的虚拟变量列。

作业

import torch
import pandas as pd
import os
os.makedirs(os.path.join('C:/Users/15186/PycharmProjects', 'data'), exist_ok=True)
data_file = os.path.join('C:/Users/15186/PycharmProjects', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('id, data1, data2, data3\n')
    f.write('rookie, 10, 2, 88\n')
    f.write('ts, 1, 88, 77\n')
    f.write('love, 200, 66,NA\n')
    f.write('lan, 100,NA,NA\n')
    f.write('ning,NA,NA,NA\n')
data = pd.read_csv(data_file, na_values='NA')
key_dict = data.isna().sum().to_dict()
max_value = max(key_dict.values())
max_key = [k for k, v in key_dict.items() if v == max_value]
data = data.drop(max_key, axis=1)
data = data.iloc[:, 1:3]
data = data.fillna(data.mean())
print(data)
tensor = torch.tensor(data.to_numpy(dtype=float))
print(tensor)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

rookiexxj01

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值