机器学习决策树算法泰塔尼克号预测

最新推荐文章于 2024-07-04 13:04:57 发布

HN--hu

最新推荐文章于 2024-07-04 13:04:57 发布

阅读量1.5k

点赞数 2

文章标签：决策树机器学习人工智能

本文链接：https://blog.csdn.net/m0_54381840/article/details/121290465

版权

对于数据集观察其中有11列个维度，需要对其中一些进行数据处理PassengerId ，乘客的id号，对生存率没影响。Survived ,应该是标签，1表示存活，0表示死亡。Pclass ,船舱等级，就是我们坐船有等级之分。这个属性会对生产率有影响。Name ,名字，这个不影响生存率。应该可以忽略。Sex , 性别，女士优先，所有这列保留，可能有影响。Age , 年龄，因为优先保护老幼，可能有影响。SibSp ,兄弟姐妹，就是有些人和兄弟姐妹一起上船的。这个会有影响，保留.

摘要由CSDN通过智能技术生成

对于数据集观察

其中有11列个维度，需要对其中一些进行数据处理

PassengerId ，乘客的id号，对生存率没影响。

Survived ,应该是标签，1表示存活，0表示死亡。

Pclass ,船舱等级，就是我们坐船有等级之分。这个属性会对生产率有影响。

Name ,名字，这个不影响生存率。应该可以忽略。

Sex , 性别，女士优先，所有这列保留，可能有影响。

Age , 年龄，因为优先保护老幼，可能有影响。

SibSp ,兄弟姐妹，就是有些人和兄弟姐妹一起上船的。这个会有影响，保留

Parch , 父母和小孩。这个也可能因为要救父母小孩耽误上救生船。保留

Ticket , 票的编号。应该没有影响，删除

Fare , 费用。这列保留

Cabin ,舱号。住的舱号没有影响。忽略。

Embarked ，上船的地方。这列可能有影响。我认为登陆地点不同，可能显示人的地位之类的不一样。我们先保留这列。

首先导入所需库

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn import tree
import matplotlib.pyplot as plt

导入数据集并可视化基本信息

data = pd.read_csv(r"C:\Users\google1\PycharmProjects\pythonProject\机器学习作业\train.csv")
da

最低0.47元/天解锁文章

HN--hu

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习决策树算法泰塔尼克号预测

对于数据集观察其中有11列个维度，需要对其中一些进行数据处理PassengerId ，乘客的id号，对生存率没影响。Survived ,应该是标签，1表示存活，0表示死亡。Pclass ,船舱等级，就是我们坐船有等级之分。这个属性会对生产率有影响。Name ,名字，这个不影响生存率。应该可以忽略。Sex , 性别，女士优先，所有这列保留，可能有影响。Age , 年龄，因为优先保护老幼，可能有影响。SibSp ,兄弟姐妹，就是有些人和兄弟姐妹一起上船的。这个会有影响，保留.
复制链接

扫一扫