本博客仅仅用于巩固学习,如有错误 还望指出(如能帮助别人自是大善)
什么是特征呢?
个人理解 就是这个对象 的某些信息 是某个类别的主要分类依据,比如狗是不会生蛋的,所以我们说狗是胎生动物,反之鸡是卵生动物,这里的是否胎生 就是特征。
特征抽取
特征抽取,在训练模型之前必须要将训练的对象的特征抽取。将人们理解的特征 翻译成为机器理解的特征。
- 字典特征抽取
from sklearn.feature_extraction import DictVectorizer
- 文本特征抽取(基于空格作为分词标志,中文文章需要单独通过jieba进行分割)
from sklearn.feature_extraction.text import CountVectorizer
- 文本特征抽取2,基于TF-IDF 方式,更加适用于文本抽取
from sklearn.feature_extraction.text import TfidfTransformer
特征降维
将多个特征合成,减少特征数量 ,但是也可能会减少部分精确率
- 特征选择
from sklearn.feature_selection import VarianceThreshold
- PAC主成分分析,用于特征数量100+
from sklearn.decomposition import PCA
特征预处理
预处理是将特征进行预先的处理,防止在某些算法里面(K近邻等),某些特征数值较大影响后面的训练
- 归一化 ,缺点:容易受到异常数据的影响,
from sklearn.preprocessing import MinMaxScaler
- 标准化 ,缺点:需要大量的数据。优点:不容易受到异常数据的影响
from sklearn.preprocessing import StandardScaler