数据分析中常用的基本降维思路及方法
数据属性(维)归约通过属性合并创建新属性维数,或者通过直接删除不相关的属性来减少数据维数,从而提高数据挖掘的效率,降低计算成本。
数据维归约的目标是寻找最小的属性子集并确保新数据子集的概率分布尽可能接近数据集的概率分布。
1、降维的意义降低无效、错误数据对建模的影响,提高建模的准确性
少量切具有代表性的数据将大幅缩减挖掘所需的时间
降低存储数据的成本
2、需要降维的情况
大多数情况下,面临高维数据,就要降维处理:维度数量。 降维基本前提是高维。
建模输出是否必须保留原始维度。如果需要最终建模输出是能够分析、解释和应用,则只能通过特征筛选或聚类等方式降维。
对模型对计算效率和建模时效性有要求。
是否需要保留完整的数据特征。
3、基于特征选择的降维
根据一定的规则和经验,直接选取原有维度的一部分参与后续的计算和建模过程,用选择的维度代替所有维度。优势是既能满足后续数据处理和建模要求,又能保留维度原本的业务含义,以便业务理解和应用。
四种思路「经验法」: 根据业务专家或数据专家的以往经验、实际数据情况、业务理解程度等进行综合考虑。
「测算法」: 通过不断测试多种维度选择参与计算,通过结果来反复验证和调整,并最终找到最佳特征方案。
「基于统计分析方法」: 通过相关分析不同维度间的线性关系,在相关性高的维度中进行人工去除或筛选方差过滤:classs sklearn.feature_selection.VarianceThreshold(threshold=0.0) .