R语言特征提取与特征选择

“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。
特征工程在机器学习中占有非常重要的作用,一般认为括特征构建、特征提取、特征选择三个部分。特征构建比较麻烦,需要一定的经验。 特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数据冗余,特征提取有时能发现更有意义的特征属性,特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。简单来说,特征构建是升维的过程,特征提取和特征选择是奖为的过程。

常用的特征选择方法大致可以分为三类:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。这里主要选用filter过滤法来筛选变量。

在此,应用mlr包进行特征选择,如对变量重要性排序等操作,首先是通过makeClassifTask()创建一个用于分类的Task,其他回归等目的有相应的创建函数。通过removeConstantFeatures()函数丢弃零变量,gener ateFilterValuesData()函数可选择相应的method进行特征重要性排序(这里运用信息增益衡量),并可绘图实现。

(1)方差选择法
通过特征本身的方差来筛选特征的类。算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。

#install.packages('mlr')
library(mlr)
# 创建task
names(df3)
train.task <- makeClassifTask(data = df5, target = 
  • 4
    点赞
  • 85
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值