python进行机器学习的第一步——数据预处理
写文章的目的是为了巩固所学,和方便回顾查找。如有讲错的地方,欢迎指出,谢谢。
载入数据:(这里使用了泰坦尼克的数据集)
import pandas as pd
dataset = pd.read_csv('train.csv')
x = dataset.iloc[:,[2,4,5]].values #采取了数据集中的舱等级,性别,年龄作为演示特征值
y = dataset.iloc[:,1].values #存活为标记(因变量)
print(x)
print(y)
输出结果发现x存在部分值的缺失以及非数值型的值。(python中缺失值用nan标记)
#x的输出结果
[[3 'male' 22.0]
[1 'female' 38.0]
[3 'female' 26.0]
...
[3 'female' nan]
[1 'male'