参考文献:
1. http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/
2. http://www.36dsj.com/archives/35137
跟之前遇到的问题有点类似,作弊店家的检测。
可以扩大数据样本吗?
试着改变你的绩效标准
- 不需要相信accuracy之类的指标,要多方面考虑
- 比如混淆矩阵、精度、召回、F1分数等
尝试对你的数据重新抽样 over sampling vs under sampling
尝试生成人工样本 SMOTE
- 每个样本,选择与它相近的另一个样本,在这两个样本中间,随机选一个点,作为新生成的点
Try Different Algorithms
- “决策树往往在处理不平衡类数据集表现不错”
penalized model
尝试从不同的观点进行思考
- anomaly detection and change detection
尝试一些新的创意