降维与二分类器准确度互斥

Liao_Wenzhe

已于 2022-03-20 14:24:31 修改

阅读量817

点赞数 1

分类专栏：机器学习与数据挖掘文章标签：机器学习深度学习神经网络

于 2022-02-25 15:26:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liao_wenzhe/article/details/123134098

版权

机器学习与数据挖掘专栏收录该内容

21 篇文章

订阅专栏

本文探讨了一篇博客中遇到的问题，即在二分类任务中，GBDT模型的查准查全达到98%，但TSNE降维可视化无法显示清晰的分类边界。可能的原因包括测试集中存在未见过的样本、降维方法的局限性（如PCA的线性映射和TSNE的非线性投影可能导致信息丢失）以及降维和模型训练的双重误差。博客作者提供了TSNE降维的可视化图像作为参考，并邀请读者共同探讨解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近笔者和小伙伴一起排查一个二分类的模型性能下降问题，主要表现为：

tsne降维可视化（或者pca降维），可以非常清晰的看到有分类边界，但是利用gbdt进行训练二分类查准查全只有70%多。
gbdt进行训练二分类查准查全有98%，但是tsne降维可视化（或者pca降维），不能看到有分类边界。

tsne可视化

也就是说gbdt的结果与tsne的变成了互斥，笔者和小伙伴们讨论了很久，归纳可能为几个原因：

测试集里有训练集里没看到过的样本。
tsne降维(pca降维)不一定有效，pca降维是线性映射，tsne利用非线性的流行学习进行投影。
pca,tsne,gbdt等都会产生误差，如果降维又gbdt训练会产生双层误差。

例如：下图都为Tsne降维结果：

参考：各类降维方法总结

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。