数据降维和特征选择

数据降维和特征选择

博主言:本文作为理论和概念整理,不做公式推导和详解计算过程,如需了解相关概念的计算公式和过程,在文后的参考链接中有详细的公式,计算过程和实例。

特征工程概述

特征工程的定义

特征工程是将原始数据转化为特征,更好表示预测模型处理的实际问题,提升对于未知数据的准确性。它是用目标问题所在的特定领域知识或者自动化的方法来生成、提取、删减或者组合变化得到特征。

特征工程的意义

1、数据特征会直接影响预测模型和实现的预测结果。
2、优质特征的灵活性可以让你使用简单的模型运算得更快,更容易理解,更容易维护。
3、优质的特征可以在使用不是最优的模型参数的情况下得到不错的预测结果。

迭代过程

1、 问题分析,观察数据
2、 特征设计
3、 特征选择
4、 评估模型

数据特征会直接影响预测模型和实现的预测结果。准备和选择的特征越好,则实现的结果越好。大多数模型都可以通过数据中良好的结构很好的学习,即使不是最优的模型,优质的特征也可以得到不错的效果。优质特征的灵活性可以让你使用简单的模型运算的更快,更容易理解,更容易维护。优质的特征可以在使用不是最优的模型参数的情况下得到不错的预测结果,这样你就不必费力去选择最适合的模型和最优的参数了。

数据降维之PCA

算法原理

通过协方差矩阵的特征值分解得到数据的主成分,发现特征之间的线性关系,并去除。通过协方差矩阵的特征值分解能够得到数据的主成分,以二维特征为例,两个特征之间可能存在线性关系(例如运动的时速和秒速度),这样就造成了第二维信息是冗余的。PCA的目标是发现这种特征之间的线性关系,并去除。

分类假设(只用于降维可以不考虑)

  1. 数据结构都是线性的
  2. 数据的概率分布满足高斯分布或指数型的概率分布

算法流程

  1. 特征归一化
  2. 计算协方差矩阵
  3. 奇异值分解求特征值和特征向量
  4. 选取降维个数

综述

  1. 线性降维方法
  2. 不建议使用PCA解决过拟合问题
    PCA是一种无监督学习,其存在的假设是:方差越大信息量越多。但是信息(方差)小的特征并不代表表对于分类没有意义,可能正是某些方差小的特征直接决定了分类结果,而PCA在降维过程中完全不考虑目标变量的做法会导致一些关键但方差小的分类信息被过滤掉。

  3. PCA只应用到训练数据集
    直接使用所有的样本进行训练, 这样实际上相当于作弊的, 这样的话降维矩阵是在包含训练样本和测试样本的情况下训练得到的, 在进行测试的时候, 测试样本会存在很大的优越性, 因为它已经知道了要降维到的空间情况。

  4. 一般在原数据集能跑出比较好的结果时使用PCA降维

数据降维之LDA

算法原理

基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性

分类假设

(1) 样本数据是正态分布;
(2) 特征是随机独立的;
(3) 对于每个类别,具有一致的协方差矩阵;

维度

 PCA降维是直接和数据维度相关的&#x
  • 3
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值