本文不讨论机器学习的数学原理,只是对各算法的基础应用进行一个回顾总结。
1.决策树是一种非参数且有监督的学习方法。
非参数:不限制数据的类型和结构
有监督:数据带有标签,需要告诉算法答案
2.决策树的作用:
决策树的作用就是将表中数据的隐含规则总结出来,然后将其以树状图的形式呈现出来;在此基础上,我们可以将不带标签的未知数据输入决策树,决策树会根据之前总结的规则输出一个结果。
3.决策树的核心问题:
(1)寻找到最好的分枝节点,即寻找到最佳的特征,以及接下来的每个最佳的分枝特征
(2)防止过拟合;如果一个表中的数据维度过大,需要对每个特征都进行提问分枝吗?什么情况下才能总结出一棵最佳的、最简洁明了的树进行判断?
以上便是决策树的一些基本的介绍。
---------------------------------------------------------------------------------------------------------------------------------
下面插播一小段Jupytr notebook的使用经验,内容基础,大佬们勿喷
1.主题设置
(1)下载一个库
pip install -- upgrade jupyterthemes
(2)查看所有的可用主题
jt -l
(3)选择自己喜欢的即可