用途:在实际业务情况中,因为存在多种变量间都存在相关性,复杂性上升,为了降低复杂度,单纯的减少指标数量,有可能导致模型损失相关信息,那有没有一种方法,可以在多种变量基础上,将N个指标,转化成为M个指标,既保证数据不缺失,模型更准确,指标数量又有所降低。
主成分的思想:就是将N维指标体系下数据,映射到K维指标体系下,并且保证到K维指标体系下,间距最大(原因是,拥有更高的区分度,更能保存原有数据的特征信息),间距最大,一般采用的方差来计算样本的间距。
步骤:
1、归一化处理
2、找到间距最大的单位向量
3、寻找最优目标函数,计算最小的损失函数,此处采用梯度优化算法具体去分析。