2.2数据的预处理

2.2数据的预处理

读取数据集 

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')
data = pd.read_csv(data_file)
print(data)

os.makedirs(): 创建一个文件夹, 括号里是路径
os.path.join('..', 'data'): 把括号里的路径组合起来, '..'指的是本代码文件的上一级目录, data即为要创建的文件夹
exist_ok=True: 意思是即使data文件夹已经存在了也不会报错

 ------------------------------------------------

尽管文件夹里还没有csv文件, 但是我们可以先创建一个指向csv文件的路径
os.path.join可以把路径和文件名组合在一起
csv文件指的是只用逗号分隔的文件 

--------------------------------------------------

 with open(路径+文件名, 模式) as 变量: 以某种方式打开该文件, 模式 r表示只读模式, w表示写入模式, a表示追加模式(都是写内容, w是覆盖, a是添加)
变量会接收文件这个对象, 在后续操作用变量名代替即可
如果该文件不存在并且模式是w或者a, 那么with open函数会在该路径下自动创建该文件, 如果是r则会报错
NA在pandas里面表示缺失值, 对于数值数据pandas也会用浮点值NaN表示缺失值; None是python内置的缺失值

 ------------------------------------------------

 pd.read_csv(): 读取一个csv文件并将其转换为一个Pandas数据框的函数
数据框可以看作是一个二维的数组或矩阵

处理缺失值

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)

 iloc[行, 列]: 选择数据框或序列中的行和列

fillna(a): 用数值a填充数据框里面的缺失值(NA/NaN)

mean(axis=0/1): 用于计算平均值, 如果axis=0, 则是计算每一列的平均值, 1则是每一行; 如果什么都不写则默认为计算列
numeric_only=True: 意为只计算数值型的数据

但是报错:

The default value of numeric_only in DataFrame.mean is deprecated. In a future version, it will default to False. In addition, specifying 'numeric_only=None' is deprecated. Select only valid columns or specify the value of numeric_only to silence this warning.
  inputs = inputs.fillna(inputs.mean())

分析解决:这个警告是由于在DataFrame.mean()函数中,numeric_only参数的默认值已被弃用。在将来的版本中,默认值将更改为False。同时,指定'numeric_only=None'也被弃用。为了消除这个警告,你可以按照以下两种方式之一来处理:

1. 指定numeric_only参数的值:
   在你的代码中,将`inputs.fillna(inputs.mean())`这一行改为`inputs.fillna(inputs.mean(numeric_only=True))`。通过明确指定numeric_only参数的值为True,可以避免警告的出现。

2. 选择有效的列:
   如果你只想对有效的列进行填充操作,可以在fillna()函数中指定你想要填充的列。例如,如果你只想对数值列进行填充,可以使用`inputs.fillna(inputs.select_dtypes(include=np.number).mean())`。这样可以避免警告,并确保只对数值列进行填充操作。

 无论你选择哪种方式,都可以消除警告并正确地处理缺失值的填充操作。 

inputs = pd.get_dummies(inputs, dummy_na=True, dtype = int)
print(inputs)

 pd.get_dummies(): 将数据离散化, 把每一种状态看作一种取值; dummy_na=True表示把缺失值NaN也列出来; dtype = int表示取值为int类型,用.get_dummies()来生成两列one-hot,保留分类变量中的缺失值,将其单独作为一列,加dummy_na= True,处理过后就会分为两列,由值0,1来表示类型。
这样就可以把所有的条目都变成数值类型, 方便后期转化为张量

转换为张量格式

 最终转化为张量格式

import torch
 
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(X, y)

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值