如何画lda投影结果_机器学习100天-Day1901降维（投影&流形学习）

最新推荐文章于 2022-09-22 08:36:59 发布

京一不二

最新推荐文章于 2022-09-22 08:36:59 发布

阅读量190

点赞数

文章标签：如何画lda投影结果

本文链接：https://blog.csdn.net/weixin_30369405/article/details/112652023

版权

说明：本文依据《Sklearn 与 TensorFlow 机器学习实用指南》完成，所有版权和解释权均归作者和翻译成员所有，我只是搬运和做注解。

第八章降维

到达第一部分机器学习的最终章，降维，最早也是在这里开始应用的，当时是使用Sklearn中LDA模型完成主题抽取，现在又回到这里，另外可能看帖的童鞋也发现了，最近的状态有问题，一直在往前推，但是对代码的分析变得很少。我只是想尽快搞定，然后转到NLP上去。

很多机器学习的问题都会涉及到有着几千甚至数百万维的特征的训练实例。这不仅让训练过程变得非常缓慢，同时还很难找到一个很好的解，这种问题通常被称为维数灾难(curse of dimentionality)。

降维会让项目更复杂因而更难维护。所有应该先尝试使用原始的数据训练，如果训练速度太慢的话再考虑使用降维。在某些情况下，降低训练集数据的维度可能会筛选掉一些噪音和不必要的细节，这可能会让你的结果比降维之前更好。

 源代码已经同步在github中 https://github.com/jwc19890114/-02-learning-file-100days

1.维数灾难

训练集的维度越高，过拟合的风险就越大

理论上解决维数爆炸可以通过增加训练集的大小从而达到拥有足够密度的训练集。但是在实践中，达到给定密度所需的训练实例的数量随着维度的数量呈指数增长。如果只有 100 个特征(比 MNIST 问题要少得多)并且假设它们均匀分布在所有维度上，那么如果想要各个临近的训练实例之间的距离在 0.1 以内，需要比宇宙中的原子还要多的训练实例。