机器学习代码实战——决策树（预测泰坦尼号船员生存情况）

最新推荐文章于 2023-12-20 14:54:29 发布

程旭员

最新推荐文章于 2023-12-20 14:54:29 发布

阅读量1.9k

点赞数 4

分类专栏：机器学习代码实战文章标签：预测泰坦尼号船员生存情况决策树机器学习 Python 数据挖掘

本文链接：https://blog.csdn.net/weixin_37763870/article/details/105339444

版权

机器学习代码实战专栏收录该内容

16 篇文章 3 订阅

订阅专栏

文章目录

1.实验目的
2.数据预处理
3.导入必要模块
4.训练+计算模型得分

1.实验目的

1、建立决策树模型以根据某些参数预测泰坦尼克号人是否得以生存
2、在泰坦尼克数据中，使用以下各列构建一个模型来预测人是否可以生存
（1）Pclass
（2）Sex
（3）Age
（4）Fare
3、计算模型得分

泰坦尼克数据
密码:8azq

2.数据预处理

import pandas as pd

df = pd.read_csv('titanic.csv')   #读取数据
df.head()    #打印前5条数据检查是否读取成功
df.drop(['PassengerId','Name','SibSp','Parch','Ticket','Cabin','Embarked'],axis='columns',inplace=True)  #删除不要的特征

inputs = df.drop('Survived',axis='columns')   #特征
target = df.Survived    #标签

inputs.Sex = inputs.Sex.map({'male':1,'female':2})  #特征数字化
inputs.Age = inputs.Age.fillna(inputs.Age.mean())   #Nan值转化为平均值

在这里插入图片描述

3.导入必要模块

from sklearn.model_selection import train_test_split  #train_test_split用以拆分训练集与测试集
from sklearn import tree

4.训练+计算模型得分

x_train,x_test,y_train,y_test = train_test_split(inputs, target,test_size=0.2)
model = tree.DecisionTreeClassifier()   #调用决策树分类器
model.fit(x_train, y_train)   #用训练集训练模型
model.score(x_test, y_test)   #用测试集计算模型预测准确率