目录
极限森林与决策树区别
决策树,进行裂分时候,根据信息增益最大进行裂分,刻板, 情深不寿,慧极必伤。
极限森林: 1、样本随机 2、分裂条件随机(不是最好的裂分条件)
像在随机森林中一样,使用候选特征的随机子集,但不是寻找最有区别的阈值,而是为每个候选特征随机绘制阈值,并选择这些随机生成的阈值中的最佳阈值作为划分规则。
加载数据
X,y = datasets.load_wine(True)
使用决策树
clf = DecisionTreeClassifier()
cross_val_score(clf,X,y,cv = 6,scoring='accuracy').mean()
使用随机森林
forest = RandomForestClassifier(n_estimators=100)
cross_val_score(forest,X,y,cv = 6,scoring='accuracy').mean()
使用极限森林
extra = ExtraTreesClassifier(n_estimators=100)
cross_val_score(extra,X,y,cv = 6,scoring='accuracy').mean()
数据质量
数据简单,那么普通的算法和复杂厉害的算法效果一样,清洗后数据,优化后的数据,整理的数据,对算法要求变低。所以说数据的质量,异常重要。