scikit-learn + pandas 决策树

最新推荐文章于 2024-08-07 14:10:52 发布

泛泛之素

最新推荐文章于 2024-08-07 14:10:52 发布

阅读量5.8k

点赞数 3

分类专栏：机器学习 pandas

本文链接：https://blog.csdn.net/tonydz0523/article/details/79127587

版权

这篇博客介绍了如何结合sklearn的决策树算法和pandas进行数据预处理，以泰坦尼克号数据集为例，探讨乘客生存的因素。首先，进行了数据清洗，包括删除无关特征、转换分类特征、处理缺失值。接着，通过散点矩阵图观察数据分布，发现等级和性别对生存率的影响。然后，构建决策树模型，并展示了不处理年龄特征和处理年龄特征的决策树结构，表明处理年龄可以提高预测准确率。最后，对模型进行了简单的测试，验证了模型的准确性。

摘要由CSDN通过智能技术生成

学习过pytorch的神经网络，返回来看sklearn的机器算法感觉简单多了，只需要套用模型，fit一下，本篇结合sklearn 上的决策树算法和pandas数据预处理对经典的泰坦尼克获取数据集进行学习，探究获救因素。
例子来源：张良均《python与数据挖掘》

数据处理

原始数据下载：https://github.com/ffzs/ml_sklearn/tree/master/data
在项目根目录，创建data目录，放在data目录中。

# 引入数据
data = pd.read_csv('data/titanic_data.csv', encoding='utf-8')
print(data.head())

结果如下：

   Survived  PassengerId  Pclass     Sex   Age
0         0            1       3    male  22.0
1         1            2       1  female  38.0
2         1            3       3  female  26.0
3         1            4       1  female  35.0
4         0            5       3    male  35.0