R语言特征提取与特征选择

最新推荐文章于 2024-07-06 09:24:02 发布

lisi6666

最新推荐文章于 2024-07-06 09:24:02 发布

阅读量7.4k

点赞数 4

文章标签： r语言数据分析

本文链接：https://blog.csdn.net/lisi6666/article/details/117727688

版权

“数据决定了机器学习的上限，而算法只是尽可能逼近这个上限”，这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程，它的目的就是获取更好的训练数据特征，使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升，有时甚至在简单的模型上也能取得不错的效果。
特征工程在机器学习中占有非常重要的作用，一般认为括特征构建、特征提取、特征选择三个部分。特征构建比较麻烦，需要一定的经验。特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征；而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数据冗余，特征提取有时能发现更有意义的特征属性，特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。简单来说，特征构建是升维的过程，特征提取和特征选择是奖为的过程。

常用的特征选择方法大致可以分为三类：过滤式（filter）、包裹式（wrapper）和嵌入式（embedding）。这里主要选用filter过滤法来筛选变量。

在此，应用mlr包进行特征选择，如对变量重要性排序等操作，首先是通过makeClassifTask()创建一个用于分类的Task，其他回归等目的有相应的创建函数。通过removeConstantFeatures()函数丢弃零变量，gener ateFilterValuesData()函数可选择相应的method进行特征重要性排序(这里运用信息增益衡量)，并可绘图实现。

（1）方差选择法
通过特征本身的方差来筛选特征的类。算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。

#install.packages('mlr')
library(mlr)
# 创建task
names(df3)
train.task <- makeClassifTask(data = df5, target =

最低0.47元/天解锁文章

lisi6666

关注

4
点赞
踩
85

收藏

觉得还不错? 一键收藏
0
评论
R语言特征提取与特征选择

“数据决定了机器学习的上限，而算法只是尽可能逼近这个上限”，这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程，它的目的就是获取更好的训练数据特征，使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升，有时甚至在简单的模型上也能取得不错的效果。特征工程在机器学习中占有非常重要的作用，一般认为括特征构建、特征提取、特征选择三个部分。特征构建比较麻烦，需要一定的经验。特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特
复制链接

扫一扫