NLP-数据预处理后的特征选择

最新推荐文章于 2024-08-16 11:24:16 发布

spring_willow

最新推荐文章于 2024-08-16 11:24:16 发布

阅读量1.8k

点赞数

分类专栏： Python NLP之路

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/spring_willow/article/details/80261472

版权

在自然语言处理（NLP）的数据预处理后，特征选择至关重要。通过相关系数法、递归特征消除（RFE）以及模型选择法，可以去除不相关和冗余特征，提高机器学习算法的效率。相关系数法计算特征与目标值的关联度，RFE利用基模型迭代训练来确定最优特征，而模型选择法则根据预先训练的模型自动选择最佳特征。

摘要由CSDN通过智能技术生成

学习笔记，，备忘录。。。
内容来源：知乎：特征工程到底是什么？

实际应用中的数据往往很多，并存在不相关的特性，特性之间也可能存在相互依赖。
通过特征选择剔除不相关或冗余的特征，减少特征个数，减少运行时间的目的。
数据预处理后，需要选择有意义的特征，然后再输入机器学习的算法和模型进行训练。

一、相关系数法

计算各个特征对目标值的相关系数，选择更加相关的特征。

原始数据：
这里写图片描述
步骤说明：

导入数据
使用SelectKBest类，通过回归的方法，确定选择几个特征值
选择自变量，调用fit_transform()方法
把自变量和因变量传入，选择相关度比较高的两个变量
通过get_support()方法获得相应的列名

示例代码：
这里写图片描述

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spring_willow CSDN认证博客专家 CSDN认证企业博客

码龄8年

95: 原创

6万+: 周排名

46万+: 总排名

46万+: 访问

: 等级

4413: 积分

163: 粉丝

255: 获赞

52: 评论

1018: 收藏

私信

关注

热门文章

分类专栏

Linux 5篇
NLP之路 24篇
Javaweb 21篇
Java 7篇
LeetCode 9篇
Python 16篇
论文笔记 5篇
开发工具 2篇
软件测试 6篇
其它 5篇

最新评论

NLP-Highway Network代码实现
大头儿: Mask是是什么呀
myeclipse连接mysql数据库
Key_Lin.: 为什么new不出来
Linux-you need at least 8.6GB disk space to install Ubuntu,this computer has only 8GB
m0_68914200: 解决办法：重新建一个虚拟机，创建虚拟盘的时候调大点大于8.8G
NLP-用RNN/LSTM做文本生成
Van_KobeBryant: 2022-03-13 22:21:26.064126: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found 2022-03-13 22:21:26.064316: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine. Traceback (most recent call last): File "d:\Vs_Code\LSTM\Lstm_Rnn.py", line 11, in <module> from gensim.models.word2vec import Word2Vec ModuleNotFoundError: No module named 'gensim' 报错啊，怎么解决啊这个
NLP-中文文本去除标点符号
jaffe—fly: 这么说还是re 好用

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。