Ensembles for Unsupervised Outlier Detection: Challenges and Research Questions
首先,知道一个模型好不好(精确不)
外部指标
aucroc
top-k正确率
但是这些都是有监督的😭
内部指标
目前暂无
其次,提高不同模型的多样性
多样性的意义
图中红色的一个点代表一个模型的结果,绿圈代表groundtruth,蓝色代表集成各个模型后的结果。
当模型具有多样性时,模型之间可以互补,结果会更接近于groundtruth。
当模型不具备多样性时,多个模型的结果可能聚集在一起,导致最终的结果向该方向偏移,并不会取得很好的结果。
总的来说,每个模型越精确,模型之间越具有多样性,最终得到的结果就越好。
多样性的引入
目前主要通过以下几种方法实现:
- 每个模型在不同的特征子集上学习
- 如feature bagging
- 每个模型在不同的数据子集上学习
- 比如估计密度时,只用10%的数据,可以大大的提高运算速度,