决策树
如何高效的进行决策
决定特征的先后顺序
决策树分类详解
已知有四个特征,是否贷款给某个人
观察训练集
原理信息熵
信息:消除不定性的东西
总信息熵
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
def tree_demo():
"""
用决策树对鸢尾花进行分裂
:return:
"""
# 1)获取数据
iris = load_iris()
# 2)划分数据集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
# 3)特征工程 不需要进行标准化
# 4)决策树预估器进行分类
estimator = DecisionTreeClassifier(criterion="entropy")
estimator.fit(x_train,y_train.astype('int'))
# 5)进行评估
score = estimator.score(x_test, y_test)
print("准确率为:\n", score)
return None
if __name__ == "__main__":
tree_demo()
警告:再划分数据集的时候,一定要注意顺序
没有免费的午餐
在传统机器学习,不同场景有不同算法
优点:
可视化
缺点:
容易产生过拟合
剪枝cart算法
随机森林