宽带离网用户分析之不平衡学习
机器学习里面有个问题叫做Imbalanced-Learning(不平衡学习),其含义就是不同Label的样本数量差别很大。其实宽带离网用户分析就是一个典型的不平衡学习问题:就拿本实验的徐州宽带用户来说,总用户量为70万,而每个月的离网用户只有不到5000用户,这里正负例样本的比例是140:1,可见是很不平衡。
这里说句老实话,工作的突破点并不是对不平衡学习的处理,工作的突破点其实还是找到了好的特征,使最终宽带离网用户预测的准确率达到了45%,而停机用户(用户状态处在不活跃状态)预测准确达到了87%。但是不平衡学习的确也是前期工作的一个重点,所以这里还是要赘述一下。
为什么不平衡学习很重要
. | 实际离网用户 | 实际非离网用户 |
---|---|---|
预测为离网用户 | true positive(tp) | false positive(fp) |
预测为非离网用户 | false negative(fn) | true negative(tn) |
还记得我们在(1)里面讲的Precision和Recall吗,其实一个最常用的标准叫做预测准确率,也就是 (tp