1 重要参数说明
DecisionTreeClassifier和DecisionTreeClassifier 重要参数调参注意点
参考网址:https://blog.csdn.net/akon_wang_hkbu/article/details/77621631
二者的不同之处——特征选择标准criterion
DecisionTreeClassifier:
可以使用"gini"或者"entropy",前者代表基尼系数,一般说使用默认的基尼系数"gini"就可以了,即CART算法。后者代表信息增益,类似ID3, C4.5的最优特征选择方法。
DecisionTreeRegressor:
可以使用"mse"或者"mae",前者是均方差,后者是和均值之差的绝对值之和。推荐使用默认的"mse"。一般来说"mse"比"mae"更加精确。除非你想比较二个参数的效果的不同之处。
2 实例演示
通过分析不同的数据集——鸢尾花数据集和波士顿房价数据集,来对DecisionTreeClassifier和DecisionTreeRegressor进行对比。
2.1 使用鸢尾花数据集
from sklearn import datasets
iris = datasets.load_iris() # 使用鸢尾花数据集
X = iris.data
y = iris.target
# 数据集分割为测试集和验证集
from sklearn.model_selection import train_test_split
X_train, X