一. 决策树算法
1. 机器学习中分类和预估算法的评估:准确率,速度,强壮性,可规模性,可解释性。
2. 什么是决策树? 每个内部节点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶节点代表类或者类分布,树的最顶层是根节点。
3. 什么是信息熵? 变量的不确定性越大,熵也就越大。
4. 决策树归纳算法(ID3)
根据信息熵的差值来判断以一个信息熵为基础所获得的信息量,信息量大的作为根节点。
对剩下的每个属性已知的值,创建一个分支,并再次根据这个划分样本。实际就是递归。
在具体编写代码的时候要注意一点就是每个节点的属性要转化成计算机能够识别的东西。
5. 决策树不适用于处理连续变量,因为设置阈值最终可能会对结果有一定的影响。
6. 决策树容易过拟合,假如说1000条数据都没有重复的。层数多可能就会造成过拟合。