![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据预处理
SpartanBin
这个作者很懒,什么都没留下…
展开
-
数据归一化、中心化
一般在进行机器学习前需要进行该处理,特别是支持向量机和神经网络,决策树系列就不需要进行该处理。 ' 是经过归一化、中心化后的训练样本,用以代替原样本, 是平均数, 是方差,注意x' 、 、 、 、σ 等都是向量。注意有时候也可以不中心化(不减 ),或不归一化(不除以 ),甚至都不进行。 ...原创 2019-07-03 14:50:39 · 708 阅读 · 0 评论 -
常见机器学习降维方法
一般在维度数量很多,严重影响到训练速度的情况下再考虑降维,降维必不可少的会减少原数据的信息量(减小方差)。 维数诅咒:越高维的数据,样本分布于边界的成分越大,样本之间的距离越远,样本越稀疏,因此越高维的数据的预测越不可靠,它们基于的推测越大,过拟合的风险也越大。 投影类: PCA(主成分分析法): 在进行PCA前应进行中心化。 PCA的思想是找到最能代表数据特征的超平面(投影后方差减少最...原创 2019-07-03 15:01:18 · 686 阅读 · 0 评论