1、决策树:
1.1.关键词:决策树分类器;信息熵;信息增益;基尼指数
信息熵表示不确定度,不确定度越高,信息熵越大;当所有样本均属于一类,则信息熵为0,即纯度越高,基尼指数为0;当信息熵比之前的小,其差值表示信息增益(衡量某个特征对分类结果影响的大小)
1.2.matlab函数(自带):
%创建决策树分类器
ctree=ClassificationTree.fit(train_data,train_label);
%查看决策树视图
view(ctree,'mode','graph');
%仿真测试(分类预测结果)
result=predict(ctree,test_data);
1.3.优化方案:
1)分析叶子节点所含的最小样本数对决策树性能的影响;
2)剪枝;
2、随机森林
2.1.关键词:随机森林分类器;多个决策树;投票众数
随机森林是一个包含多个决策树的分类器,其输出的类别是由个别树输出的类别的众数决定的。
2.2.matlab函数(附带):
%创建随机森林分类器
model=classRF_train(train_data,train_label);
%仿真测试(分类预测结果)
[result,votes]=classRF_predict(test_data.model);
2.3.优化方案:
1)随机森林中决策树棵树对性能的影响