特征工程基本API(sklearn版)

特征工程基本API(sklearn版)


本博客仅仅用于巩固学习,如有错误 还望指出(如能帮助别人自是大善)

什么是特征呢?
个人理解 就是这个对象 的某些信息 是某个类别的主要分类依据,比如狗是不会生蛋的,所以我们说狗是胎生动物,反之鸡是卵生动物,这里的是否胎生 就是特征。

特征抽取

特征抽取,在训练模型之前必须要将训练的对象的特征抽取。将人们理解的特征 翻译成为机器理解的特征。

  1. 字典特征抽取
from sklearn.feature_extraction import DictVectorizer
  1. 文本特征抽取(基于空格作为分词标志,中文文章需要单独通过jieba进行分割)
from sklearn.feature_extraction.text import CountVectorizer
  1. 文本特征抽取2,基于TF-IDF 方式,更加适用于文本抽取
from sklearn.feature_extraction.text import TfidfTransformer

特征降维

将多个特征合成,减少特征数量 ,但是也可能会减少部分精确率

  1. 特征选择
from sklearn.feature_selection import VarianceThreshold
  1. PAC主成分分析,用于特征数量100+
from sklearn.decomposition import  PCA

特征预处理

预处理是将特征进行预先的处理,防止在某些算法里面(K近邻等),某些特征数值较大影响后面的训练

  1. 归一化 ,缺点:容易受到异常数据的影响,
from sklearn.preprocessing import MinMaxScaler
  1. 标准化 ,缺点:需要大量的数据。优点:不容易受到异常数据的影响
from sklearn.preprocessing import StandardScaler
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值