最近笔者和小伙伴一起排查一个二分类的模型性能下降问题,主要表现为:
-
tsne降维可视化(或者pca降维),可以非常清晰的看到有分类边界,但是利用gbdt进行训练二分类查准查全只有70%多。
-
gbdt进行训练二分类查准查全有98%,但是tsne降维可视化(或者pca降维),不能看到有分类边界。
tsne可视化
也就是说gbdt的结果与tsne的变成了互斥,笔者和小伙伴们讨论了很久,归纳可能为几个原因:
-
测试集里有训练集里没看到过的样本。
-
tsne降维(pca降维)不一定有效,pca降维是线性映射,tsne利用非线性的流行学习进行投影。
-
pca,tsne,gbdt等都会产生误差,如果降维又gbdt训练会产生双层误差。
例如:下图都为Tsne降维结果:
参考:各类降维方法总结