引言
一个接一个的解决多元线性问题,如同不停的问问题,不同问题的分支,就如同设定了多个决策面
1. SupportVectorMachines
1.1. 导入代码:
from sklearn import tree
clf = tree.DecisionTreeClassifier()#对于分类问题
clf = tree.DecisionTreeRegressor()#对于回归问题
1.2 决策树常见参数
- depth_map,越小容易高偏差,拟合不够,越大容易高方差,过拟合。
- min_samples_split,最小样本分割数量,分到剩下多少个就不再分。越小决策树越复杂,准确率可能反而降低
1.3 熵 Entropy
测量一系列样本不纯度的方式
entropy = ∑i0−Pilog2Pi
1.4 信息增益
决策树会最大化信息增益,信息增益 = 父熵 - 权 x 子熵,根据信息增益进行拆分
可以参考 信息论的熵
1.5 优缺点
比支持向量机还好理解,不过当存在大量特征时,容易过拟合,可以通过集成,构建更大的分类器
1.6 决策树的可表达性
AND OR XOR