NLP-数据预处理后的特征选择

在自然语言处理(NLP)的数据预处理后,特征选择至关重要。通过相关系数法、递归特征消除(RFE)以及模型选择法,可以去除不相关和冗余特征,提高机器学习算法的效率。相关系数法计算特征与目标值的关联度,RFE利用基模型迭代训练来确定最优特征,而模型选择法则根据预先训练的模型自动选择最佳特征。
摘要由CSDN通过智能技术生成

学习笔记,,备忘录。。。
内容来源:知乎:特征工程到底是什么?

  • 实际应用中的数据往往很多,并存在不相关的特性,特性之间也可能存在相互依赖。
  • 通过特征选择剔除不相关或冗余的特征,减少特征个数,减少运行时间的目的。
  • 数据预处理后,需要选择有意义的特征,然后再输入机器学习的算法和模型进行训练。

一、相关系数法

  • 计算各个特征对目标值的相关系数,选择更加相关的特征。

原始数据:
这里写图片描述
步骤说明:

  • 导入数据
  • 使用SelectKBest类,通过回归的方法,确定选择几个特征值
  • 选择自变量,调用fit_transform()方法
  • 把自变量和因变量传入,选择相关度比较高的两个变量
  • 通过get_support()方法获得相应的列名

示例代码:
这里写图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值