目录
认识决策树:
例子:对是否可以贷款进行决策树构造
决策树就好比:二叉树分类中,关键的信息分类标准占重要地位且放在首位(信息增益值大的特征)
信息熵:(描述信息的不确定性,值越大,不确定性越大)
信息熵
信息等价于消除不确定性
信息增益
特征A对训练数据集D的信息增益g(D,A),
定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:
简单例子进行了解:
决策树是怎样对特征抽取后的结果进行计算的?
决策树的每一层都需要根据最大信息增益来进行分类特征的选取。实际上,信息增益最大找的是样本之间差异最大的特征
构造的决策树,随着深度的加深,容易造成过拟合现象:
解决方法:1:剪枝法
dec = DecisionTreeClassifier(min_samples_leaf=1) # min_samples_leaf=1 表示针对小于1的样本的叶子结点删除
2:随机森林(随机抽样建立多个决策树)
class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None) 随机森林分类器
n_estimators:integer,optional(default = 10) 森林里的树木数量
criteria:string,可选(default =“gini”)分割特征的测量方法
max_depth:integer或None,可选(默认=无)树的最大深度
bootstrap:boolean,optional(default = True)是否在构建树时使用放回抽样