沐神深度学习笔记2

最新推荐文章于 2024-03-03 22:25:21 发布

何成暮雨912

最新推荐文章于 2024-03-03 22:25:21 发布

阅读量198

点赞数

文章标签：笔记

本文链接：https://blog.csdn.net/qq_64465493/article/details/130901726

版权

简单数据预处理

1.创建人工数据集，存储在csv文件中

如下面这段代码：

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
f.write('NumRooms,Alley,Price\n') # 列名
f.write('NA,Pave,127500\n') # 每行表示一个数据样本
f.write('2,NA,106000\n')
f.write('4,NA,178100\n')
f.write('NA,NA,140000\n')

利用导入的os库，创建了一个csv文件保存到 ../data/house_tiny.csv目录下，具体内容见代码

2.利用pandas读取csv文件

只要用read_csv()即可

3.处理缺失数据

常用方法：1.插值 2.删除

插值:

例如下：

通过位置索引iloc，我们将data分成inputs和outputs，其中前者为data的前两列，而后者为data的最后一列。对于inputs中缺少的数值，我们用同一列的均值替换“NaN”项。

代码：

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2] （前三列作为inputs的内容，最后一列作为outputs的内容。）
inputs = inputs.fillna(inputs.mean())（fillna把所有的nan数用括号内数据填充，本例子中，用了其他数据的均值填充，即mean()）
print(inputs)

通过上面的代码，我们可以实现对缺失的数据的值进行插值，那么如何对非数值类型如上面的例子中的Alley类型进行补充呢。

对于inputs中的类别值或离散值，我们将“NaN”视为一个类别。

由于“巷子类型”（“Alley”）列只接受两种类型的类别值“Pave”和“NaN”， pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。巷子类型为“Pave”的行会将“Alley_Pave”的值设置为1，“Alley_nan”的值设置为0。缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。

代码：

inputs = pd.get_dummies(inputs, dummy_na=True)（dummy_na表示增加一列表示空缺值如本例子中加了一个alley_nan列）
print(inputs)