深度学习2 数据预处理

rookiexxj01

于 2024-08-21 21:46:55 发布

阅读量243

点赞数 9

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/rookiexxj/article/details/141401756

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.读取数据集

import torch
import pandas as pd
import os
os.makedirs(os.path.join('C:/Users/15186/PycharmProjects', 'data'), exist_ok=True)
data_file = os.path.join('C:/Users/15186/PycharmProjects', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms, Alley, Price\n')
    f.write('NA, Pave, 127500\n')
    f.write('2, NA, 106000\n')
    f.write('4, NA, 178100\n')
    f.write('NA, NA, 140000\n')
data = pd.read_csv(data_file)  # 默认第一行是名称，可以用header=None来将第一行也当作数据
print(data)

在这里插入图片描述

注意点：1)os.path.join(‘…’,‘data’) 整个部分是创建一个文件路径，‘…’代表创建的目录的父目录，‘data’是父目录下的子目录，exist_ok=True 参数表示如果目录已经存在，函数不会抛出异常。
2）pandas.read_csv(data_file) 读数据是将第一行默认是名称。

2.处理缺失值

三个操作
1）切片
inputs = data.iloc[ : ,0:2] 即传入只包含1列和2列的数据。
2）填充数值
inputs = inputs.fillna(inputs.mean()) 将列数据的平均值填满NA
3）编码
pd.get_dummies(inputs, dummy_na = True) 类别编码，dummy_na = True参数为缺失值创建额外的虚拟变量列。

作业

import torch
import pandas as pd
import os
os.makedirs(os.path.join('C:/Users/15186/PycharmProjects', 'data'), exist_ok=True)
data_file = os.path.join('C:/Users/15186/PycharmProjects', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('id, data1, data2, data3\n')
    f.write('rookie, 10, 2, 88\n')
    f.write('ts, 1, 88, 77\n')
    f.write('love, 200, 66,NA\n')
    f.write('lan, 100,NA,NA\n')
    f.write('ning,NA,NA,NA\n')
data = pd.read_csv(data_file, na_values='NA')
key_dict = data.isna().sum().to_dict()
max_value = max(key_dict.values())
max_key = [k for k, v in key_dict.items() if v == max_value]
data = data.drop(max_key, axis=1)
data = data.iloc[:, 1:3]
data = data.fillna(data.mean())
print(data)
tensor = torch.tensor(data.to_numpy(dtype=float))
print(tensor)