决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。
泰坦尼克号幸存者的预测
数据点击这里可以下载——>点击这里下载。也可以在评论区留下你的邮箱,我发送给您。
首先导入所用到的库:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
将数据导入:
data = pd.read_csv('taitannikehao.csv')
查看数据前五行:
data.head()
查看数据状况:
data.info()
将"Cabin",“Name”,"Ticket"这三个列删除,对预测影响没有影响。
data.drop(["Cabin","Name","Ticket"],inplace=True,axis=1)#inplace 表示是否覆盖原表
再次查看数据:
data.info()
发现"Age"列有200多缺失值,这里我们选择用平均值填充。
data["Age"] = data["Age"].fillna(data['Age'].mean())
<