开发环境:
-
Anacoda-jupyter
-
下载graphviz
一、sklearn的基本信息
-
官网:https://scikit-learn.org/stable/
-
推荐书籍:《数据挖掘导论》《机器学习》又称西瓜书
-
sklearn分为六个板块,如下:
-
分类
-
回归
-
聚类
-
降维
-
模型选择
-
数据的预处理
二、决策树
学习重点:
-
解决两个重要问题:
-
如何从数据表中找出最佳节点和最佳分支?
-
如何让决策树停止生长,防止过拟合?
-
掌握8个参数,1个属性,4个接口
2.1 基本定义
-
同时被用于分类和回归问题;
-
最大的缺点就是非常容易过拟合( 什么是过拟合?就是说,它会在训练集上表现很好,在测试集上却表现糟糕。);
-
从一张有特征和标签的表格中,通过对特征进行提问,为我们总结出一系列决策规则,并用树状图来呈现这些决策规则。
-
是非参数有监督的学习方法;
-
在决策过程中,我们一直在对记录的特征进行提问,那么:
-
最初问题所在的地方叫做根节点(没有进边,只有出边);
-
在得到结论前的每一个问题都是中间节点(有进边,也有出边);
-
得到的每一个结论都叫做叶子节点(有进边,没有出边);
Tips:在两个相连的节点中,更接近根节点的是父节点,另一个是子节点。