自发想起的几个办法,试过了,都没什么用:
1. 圈出比较有可能的,然后对剩下的进行再次挑选。
但是尝试后发现并不是个很好的方法,虽然第一次决策树过滤了很多的不相干的,但是对剩下的再进行建模的准确率和覆盖率都很低,几乎等于直接用一次决策树,但是仔细调节正负样本比例后的结果。
2. 对首次得到的概率作为特征进入输入。
下载了一些 Class Imbalance Problem的论文,正在尝试使用其中的办法,看看是否能够提高模型准确率和查全率
to be continue 20150825