scikit-learn + pandas 决策树

这篇博客介绍了如何结合sklearn的决策树算法和pandas进行数据预处理,以泰坦尼克号数据集为例,探讨乘客生存的因素。首先,进行了数据清洗,包括删除无关特征、转换分类特征、处理缺失值。接着,通过散点矩阵图观察数据分布,发现等级和性别对生存率的影响。然后,构建决策树模型,并展示了不处理年龄特征和处理年龄特征的决策树结构,表明处理年龄可以提高预测准确率。最后,对模型进行了简单的测试,验证了模型的准确性。
摘要由CSDN通过智能技术生成

学习过pytorch的神经网络,返回来看sklearn的机器算法感觉简单多了,只需要套用模型,fit一下,本篇结合sklearn 上的决策树算法和pandas数据预处理 对 经典的泰坦尼克获取数据集进行学习,探究获救因素。
例子来源:张良均《python与数据挖掘》

数据处理

原始数据下载:https://github.com/ffzs/ml_sklearn/tree/master/data
在项目根目录,创建data目录,放在data目录中。

# 引入数据
data = pd.read_csv('data/titanic_data.csv', encoding='utf-8')
print(data.head())

结果如下:

   Survived  PassengerId  Pclass     Sex   Age
0         0            1       3    male  22.0
1         1            2       1  female  38.0
2         1            3       3  female  26.0
3         1            4       1  female  35.0
4         0            5       3    male  35.0

我们不需要PassengerId 这一项,因为不适合作为特征值,删除得方法很多:

del data['PassengerId']

或者


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值