决策树
描述
在每个节点进行判断, 对不满足条件的样本进入下一层判断.用来解决多分类问题,具有良好的可解释性.
设信息熵初始值为无穷大.遍历每个特征,嵌套遍历每两个样本该特征的值(不相等的)的中间值为分割点,计算此时的信息熵, 如果信息熵小于原值,则重新赋值给信息熵.这样获取第一次分割的x,y,使得该次分割后的信息熵(基尼系数)最小.对分割后的两部分信息熵(基尼系数)不为零的继续进行分割. 剪枝防止过拟合,只能沿轴向切割, 对个别点敏感,需要调参.一般使用随机森林.
接口
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y)
dt_clf = DecisionTreeClassifier(max_depth=2, criterion='entropy')
dt_clf.fit(X_train, y_train)
score = dt_clf.score(X_test, y_test)
print(score)