04-数据操作/数据预处理数据预处理部分动手深度学习

最新推荐文章于 2024-09-09 23:51:40 发布

画里的风

最新推荐文章于 2024-09-09 23:51:40 发布

阅读量93

点赞数

分类专栏：深度学习文章标签：深度学习 python 人工智能

本文链接：https://blog.csdn.net/m0_50065739/article/details/128530826

版权

深度学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

#04-数据预处理
import os
import pandas as pd #pandas提供了read_csv

os.makedirs(os.path.join('..','data'),exist_ok=True)#os.path.join用于拼接路径
data_file = os.path.join('..','data','house_tiny.csv')#通常，CSV文件的第一行包含表列标签。 随后的每一行代表该表的一行。 逗号分隔行中每个单元格的位置，这是名称的来源。
with open(data_file,'w') as f:
    f.write('NumRooms,Alley,Price\n')#列名
    f.write('NA,Pave,127500\n')#每行一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

data = pd.read_csv(data_file)
print(data)

#处理缺失的数据 典型的方法包括插值和删除 这里 我们考虑插值
inputs,outputs = data.iloc[:,0:2],data.iloc[:,2] #对数据切片 index location
inputs = inputs.fillna(inputs.mean())#将nan的值填补成 所有有数值的平均值
print(inputs)

inputs = pd.get_dummies(inputs,dummy_na=True)#对于inputs中的类别值或离散值 我们将nan视为一个类别
print(inputs)

import torch
#现在inputs和outputs中的所有条目都是数值类型 可以转换为张量格式

x,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x)#python 默认转换为64位的浮点数 但深度学习中一般用32位的
print(y)