决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
目录
*1. 决策树的重要参数
2. 数据预处理
3. 建立模型
4. 网格搜索优化
5. 图形化展示
一、决策树的重要参数介绍
图片引用自:(https://blog.csdn.net/qq_41577045/article/details/79844709)
二、数据预处理
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV
data=pd.read_csv(r"D:\数据集\泰坦尼克号\train.csv")
#筛选特征,删除无效的及缺失值太高的特征
data.drop(["Name","Ticket","Cabin"],inplace=True,axis=1) #按照列删除,覆盖原数据
#处理缺失值,年龄用均值填补
data["Age"]=data["Age"].fillna(data["Age"].mean())
data.info()
#处理缺失值的行数据
data=data.dropna() #默认axis=0行数据
#将字符串转换为离散型数值 apply方法
labels=data["Embarked"].unique().tolist()
data["Embarked"]=data["Embarked"].apply(lambda x:labels.index(x))