需先理解【机器学习】(2)决策树_mjiansun的博客-CSDN博客
1. Bagging
这里在选择分类器时,一般就选择一种分类器,而且会选择决策树这样的弱分类器,SVM和logistic属于强分类器。
2. 随机森林
先选部分样本,再从这部分样本中挑选特征。
3. 投票机制
这个贝叶斯投票机制:
具体使用可能需要自己定义新的公式。
4. 样本不均衡
代价敏感学习这里我还是很理解,后面懂了我再来补充。
5. 样本间相似度
有M棵树,每个数都会有很多叶子节点,这些所有的树的叶子节点假设为A个。
A1表示第一个叶子节点,假设当中有k个取值[x1,x2,...,xk],这里的x1,x2等表示样本序号,每个叶子的伪代码如下所示:
for i in [x1,x2,...xk]: for j in [x1,x2,...xk]: S[i,j] += 1
6. 使用随机森林计算特征重要度
6.1 selection frequency
100个样本使用属性1进行划分,说明属性1的重要度更高。我感觉和6.2的gini指数或者信息增益差不多。
6.2 gini importance
根节点与叶节点之间Gini差值,差值越大表明提供信息越多,也说明该特征越重要。
其实这个Gini差值与信息增益差不多,没什么区别我个人的看法,只不过一般随机森林喜欢使用Gini指数,所以这里我就以Gini指数讲解说明。
【机器学习】(2)决策树_mjiansun的博客-CSDN博客中的2.2.3
根据Gini指数:
6.3 permutations importance
随机去掉一维特征,查看召回率(或者准确率)与未去掉特征的召回率(或者准确率)之间的变化程度,如果变化较大(理论上未去掉特征的召回率(或者准确率)会比去掉某一维特征所得的召回率(或者准确率)要高),说明该特征比较重要。