1.缺失值比率(Missing Value Rate)
包含太多缺失值的列,包含的信息相对较少,可以将数据列缺失值数目大于某个阈值的列剔除
2.低方差滤波(Low Variance Filter)
数据列值变化较小的列,包含的信息较少。计算方差前应先对数据做归一化处理
3. 高相关滤波(High Correlation Filter)
如果两列的数据变化趋势相似,选择其中的一列就可满足要求。数值之间的相似性可用过计算相关系数来确定,非数值列之间的相关性可通过卡方检验来确定。计算前应归一化处理
4. 随机森林(Random Forests)
随机森林在构建过程中,对每棵树随机选择数据,且随机选择特征,如果一个属性被选为最佳分裂属性的频次较高,说明它包含的信息越多
5. PCA(Principal Component Analysis)主成分分析
无监督线性降维方法,基本思想是通过线性投影,将高维数据点映射到低维空间中,并期望在所投影的维度上数据的方差最大,即保留原始数据最大信息量。变换后的结果中,第一个主成分具有最大的方差值,每个后续的主成分在与前一个主成分正交的情况下具有最大的方差。降维后仅保存前m个主成分即可保留最大的信息量
6. LDA(Liner Discriminate Analysis)线性判别分析
有监督的线性降维方法,与PAC希望降维后保留最大的信息量不同,LDA希望数据在降维后数据更容易区分开来。LDA最多降到k-1维数,而PCA没有这个限制
7.LLE(Locally Linear Embedding)局部线性嵌入
非线性降维算法,使降维后的数据保持原有的流行结构。LLE算法认为数据集中的每个点都可以由其近邻点的线性加权得到,实现步骤:(1)找到数据点的k个近邻点(2)由每个近邻点构建改样本点的局部重建矩阵(3)由局部重建矩阵和近邻点计算重建后的样本点
8. LE(Laplacian Eigenmaps)拉普拉斯特征映射
使相互间有关系的点,即在图中相连的点,在降维后的空间中尽可能相近。实现步骤:(1)构建图(2)确定点与点之间的权重(3)求拉普拉斯矩阵的最小m个特征向量,作为降维后的输出。