将图像读取之后,如若将每一个像素点看做特征,数据过于庞大和冗余,同时为了速度和可视化效果应先对读取进来的数据进行降维处理。
1.1
消减维度的理由:
(1)大多数的模型在维度较小的情况下比较安全,多余的特征会影响或误导学习器;
(2)更多的特征需要调整更多的参数,容易产生过拟合;
(3)较少的维度数据集训练速度快;
(4)实现数据可视化时,大多限制在两、三个维度上,更加体现降维的必要。
无法使用选择方法删减特征,可以采用统计方法(PCA、LDA、MDS)降维。
1.2降维步骤:
(1)选择特征:删除有明显依赖关系的特征。
(2)用筛选器检测冗余特征:相关性(只针对线性关系),互信息(针对非线性关系)。
具体判断:
使用相关性进行筛选时,从数据序列出发,使用scipy.stats.pearsonr()函数进行相关系数计算,返回值为[相关性系数,P值],P值越大,越不可以相信所计算出的相关性系数。
互信息从数据的分布出发,引入信息熵的概念。具有较高互信息量的特征对,删掉其中一个特征,计算量大。
(3)用封装器让模型选择特征:
筛选器扔掉看似没有用处的特征,但有时可能包含他效果更好,引进封装器,在Sklearn.feature_selection包中RFE比较常用。
(4)其他特征选择方法---特征抽取PCA,