PCA降维原理以及举例

将图像读取之后,如若将每一个像素点看做特征,数据过于庞大和冗余,同时为了速度和可视化效果应先对读取进来的数据进行降维处理。

1.1

消减维度的理由:

(1)大多数的模型在维度较小的情况下比较安全,多余的特征会影响或误导学习器;

(2)更多的特征需要调整更多的参数,容易产生过拟合;

(3)较少的维度数据集训练速度快;

(4)实现数据可视化时,大多限制在两、三个维度上,更加体现降维的必要。

无法使用选择方法删减特征,可以采用统计方法(PCA、LDA、MDS)降维。

1.2降维步骤:

(1)选择特征:删除有明显依赖关系的特征。

(2)用筛选器检测冗余特征:相关性(只针对线性关系),互信息(针对非线性关系)。

具体判断:

使用相关性进行筛选时,从数据序列出发,使用scipy.stats.pearsonr()函数进行相关系数计算,返回值为[相关性系数,P值],P值越大,越不可以相信所计算出的相关性系数。

互信息从数据的分布出发,引入信息熵的概念。具有较高互信息量的特征对,删掉其中一个特征,计算量大。

(3)用封装器让模型选择特征:

筛选器扔掉看似没有用处的特征,但有时可能包含他效果更好,引进封装器,在Sklearn.feature_selection包中RFE比较常用。

(4)其他特征选择方法---特征抽取PCA,

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值