在对数据进行分析时,经常会遇到数据缺失或者异常的情况
在这样的数据多的情况下删掉数据终归会对整体造成一定的影响
所以采取对数据进行处理的方法让缺失或者异常的数据有数可用
例如用均值或者最值进行代替
本文便用少量的数据进行分析
下面的数据存在着缺失,数据表示的来自某一些国家的人的年龄,薪资,是否结婚
要知道:在python中缺失的数据默认是NaN
首先导入数据文件,设置数据文件的自变量X,因变量y
X取除了最后一列的所有值
y取最后一列的值
dataset=pd.read_csv('Data.csv')
X=dataset.iloc[:,:-1].values #自变量矩阵
# iloc是取矩阵的某行某列 除第一列外的所有列
y=dataset.iloc[:,3].