决策树:
信息熵的计算:
条件熵的计算:
API:
•
class
sklearn.tree.DecisionTreeClassifier
(
criterion=’
gini
’
,
max_depth
=
None
,
random_state
=None
)
•
决策树分类器
•
criterion:
默认是
’
gini
’
系数,也可以选择信息增益的熵
’entropy’
•
max_depth
:
树的深度大小
•
random_state
:
随机数种子
•
method:
•
decision_path
:
返回决策树的路径
随机森林:
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
API:
•class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’,
max_depth=None, bootstrap=True, random_state=None)
•随机森林分类器
•n_estimators:integer,optional(default = 10) 森林里的树木数量
•criteria:string,可选(default =“gini”)分割特征的测量方法
•max_depth:integer或None,可选(默认=无)树的最大深度
•bootstrap:boolean,optional(default = True)是否在构建树时使用放回抽样
优点:
•
在当前所有算法中,具有极好的准确率
•
能够有效地运行在大数据集上
•
能够处理具有高维特征的输入样本,而且不需要降维
•
能够评估各个特征在分类问题上的重要性
•
对于缺省值问题也能够获得很好得结果