学习过pytorch的神经网络,返回来看sklearn的机器算法感觉简单多了,只需要套用模型,fit一下,本篇结合sklearn 上的决策树算法和pandas数据预处理 对 经典的泰坦尼克获取数据集进行学习,探究获救因素。
例子来源:张良均《python与数据挖掘》
数据处理
原始数据下载:https://github.com/ffzs/ml_sklearn/tree/master/data
在项目根目录,创建data目录,放在data目录中。
# 引入数据
data = pd.read_csv('data/titanic_data.csv', encoding='utf-8')
print(data.head())
结果如下:
Survived PassengerId Pclass Sex Age
0 0 1 3 male 22.0
1 1 2 1 female 38.0
2 1 3 3 female 26.0
3 1 4 1 female 35.0
4 0 5 3 male 35.0
我们不需要PassengerId 这一项,因为不适合作为特征值,删除得方法很多:
del data['PassengerId']
或者