机器学习：特征工程之特征提取

最新推荐文章于 2023-11-07 15:47:59 发布

condi1997

最新推荐文章于 2023-11-07 15:47:59 发布

阅读量1.2k

点赞数

文章标签：机器学习特征提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/condi1997/article/details/105341303

版权

本文介绍了特征工程的概念和重要性，包括数据预处理如归一化和降维。接着详细讲解了特征提取，特别是针对文本数据，提到了sklearn.feature_extraction库中的DictVectorizer、CountVectorizer和TfidfVectorizer，解释了TF-IDF的重要性。

摘要由CSDN通过智能技术生成

目录

第一部分：特征工程
第二部分：特征提取
备注：
- 一.词

第一部分：特征工程

一.概念

1.“数据决定了机器学习的上限，而算法只是尽可能逼近这个上限”，这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据，那么需要进行一些特征处理，特征的缩放等等，满足训练数据的要求。
2.特征工程的过程：从数据中抽取出对预测结果有用的信息，通过专业的技巧进行数据处理，使特征能在机器学习算法中发挥更好的作用。
注：优质的特征往往描述了数据的固有结构。最初的原始特征数据集可能太大，或者信息冗余，因此在机器学习的应用中，一个初始步骤就是选择特征的子集，或构建一套新的特征集，减少功能来促进算法的学习，提高泛化能力和可解释性。

二.意义

对数据进行特征工程，是为了获得有代表性的特征，只需用简单模型，得到更好的结果。

三.特征处理

对已有的数据进行运算达到目标的数据标准，特征预处理包括：单个特征和多个特征。
单个特征：归一化、标准化、缺失值；
多个特征：降维，如PCA。

第二部分：特征提取

一.特征抽取

将任意数据格式（例如文本和图像）转换为机器学习的数字特征。
很多特征都不是连续变量，比如分类、文字、图像等，为了对非连续变量做特征表述，需要对这些特征做数学化表述。其中sklearn.feature_e

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习：特征工程之特征提取

目录第一部分：特征工程一.概念二.意义三.特征处理四.特征抽取备注：一.词第一部分：特征工程一.概念1.“数据决定了机器学习的上限，而算法只是尽可能逼近这个上限”，这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据，那么需要进行一些特征处理，特征的缩放等等，满足训练数据的要求。2.特征工程的过程：从数据中抽取出对预测...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。