原始数据: 在Data.csv文件中我们有如下数据:
统计了10个人的基本信息:国籍,年龄,工资 以及他们对于某件商品是否购买的情况。
代码实现细节分析:
(1)导入基本python包
import numpy as np
import pandas as pd
(2)导入数据,读取.csv文件中的数据
dataset = pd.read_csv('Data.csv') #读取指定.csv文件,返回DataFrame
X = dataset.iloc[ : , : -1].values #获取指定索引的行列数据 iloc = “index location”
Y = dataset.iloc[ : , 3].values
结果显示: 表格中为空的数据,在X中使用nan表示
(3)处理丢失数据,将1,2列中 nan 的数据使用该列中所有已知数的平均值代替
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values