特征工程基本API（sklearn版）

最新推荐文章于 2022-07-26 22:35:29 发布

夏之奈

最新推荐文章于 2022-07-26 22:35:29 发布

阅读量217

点赞数

分类专栏：机器学习文章标签：特征工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38103371/article/details/103253022

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

特征工程基本API（sklearn版）

本博客仅仅用于巩固学习，如有错误还望指出（如能帮助别人自是大善）

什么是特征呢？
个人理解就是这个对象的某些信息是某个类别的主要分类依据，比如狗是不会生蛋的，所以我们说狗是胎生动物，反之鸡是卵生动物，这里的是否胎生就是特征。

特征抽取

特征抽取，在训练模型之前必须要将训练的对象的特征抽取。将人们理解的特征翻译成为机器理解的特征。

字典特征抽取

from sklearn.feature_extraction import DictVectorizer

文本特征抽取（基于空格作为分词标志，中文文章需要单独通过jieba进行分割）

from sklearn.feature_extraction.text import CountVectorizer

文本特征抽取2，基于TF-IDF 方式，更加适用于文本抽取

from sklearn.feature_extraction.text import TfidfTransformer

特征降维

将多个特征合成，减少特征数量，但是也可能会减少部分精确率

特征选择

from sklearn.feature_selection import VarianceThreshold

PAC主成分分析，用于特征数量100+

from sklearn.decomposition import  PCA

特征预处理

预处理是将特征进行预先的处理，防止在某些算法里面（K近邻等），某些特征数值较大影响后面的训练

归一化，缺点：容易受到异常数据的影响，

from sklearn.preprocessing import MinMaxScaler

标准化 ,缺点：需要大量的数据。优点：不容易受到异常数据的影响

from sklearn.preprocessing import StandardScaler

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征工程基本API（sklearn版）

特征工程基本API（sklearn版）特征抽取特征降维特征预处理本博客仅仅用于巩固学习，如有错误还望指出（如能帮助别人自是大善）什么是特征呢？个人理解就是这个对象的某些信息是某个类别的主要分类依据，比如狗是不会生蛋的，所以我们说狗是胎生动物，反之鸡是卵生动物，这里的是否胎生就是特征。特征抽取特征抽取，在训练模型之前必须要将训练的对象的特征抽取。将人们理解的特征翻译成为机器...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。