04-数据操作/数据预处理 数据预处理部分 动手深度学习

#04-数据预处理
import os
import pandas as pd #pandas提供了read_csv

os.makedirs(os.path.join('..','data'),exist_ok=True)#os.path.join用于拼接路径
data_file = os.path.join('..','data','house_tiny.csv')#通常,CSV文件的第一行包含表列标签。 随后的每一行代表该表的一行。 逗号分隔行中每个单元格的位置,这是名称的来源。
with open(data_file,'w') as f:
    f.write('NumRooms,Alley,Price\n')#列名
    f.write('NA,Pave,127500\n')#每行一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

data = pd.read_csv(data_file)
print(data)

#处理缺失的数据 典型的方法包括插值和删除 这里 我们考虑插值
inputs,outputs = data.iloc[:,0:2],data.iloc[:,2] #对数据切片 index location
inputs = inputs.fillna(inputs.mean())#将nan的值填补成 所有有数值的平均值
print(inputs)

inputs = pd.get_dummies(inputs,dummy_na=True)#对于inputs中的类别值或离散值 我们将nan视为一个类别
print(inputs)

import torch
#现在inputs和outputs中的所有条目都是数值类型 可以转换为张量格式

x,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x)#python 默认转换为64位的浮点数 但深度学习中一般用32位的
print(y)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值