对于数据集观察
其中有11列个维度,需要对其中一些进行数据处理
PassengerId ,乘客的id号,对生存率没影响。
Survived ,应该是标签,1表示存活,0表示死亡。
Pclass ,船舱等级,就是我们坐船有等级之分。这个属性会对生产率有影响。
Name ,名字,这个不影响生存率。应该可以忽略。
Sex , 性别,女士优先,所有这列保留,可能有影响。
Age , 年龄,因为优先保护老幼,可能有影响。
SibSp ,兄弟姐妹,就是有些人和兄弟姐妹一起上船的。这个会有影响,保留
Parch , 父母和小孩。这个也可能因为要救父母小孩耽误上救生船。保留
Ticket , 票的编号。应该没有影响,删除
Fare , 费用。这列保留
Cabin ,舱号。住的舱号没有影响。忽略。
Embarked ,上船的地方。这列可能有影响。我认为登陆地点不同,可能显示人的地位之类的不一样。我们先保留这列。
首先导入所需库
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn import tree
import matplotlib.pyplot as plt
导入数据集并可视化基本信息
data = pd.read_csv(r"C:\Users\google1\PycharmProjects\pythonProject\机器学习作业\train.csv")
da