机器学习中的特征变量及处理总结-CSDN博客

本文链接：https://blog.csdn.net/CSDN_SUSAN/article/details/103463113

文章目录

1. 定性特征变量
- 1.1 定类变量处理
- 1.2 定序变量处理
2. 定量特征变量
3. 总结

牢记一句话：“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”。
机器学习的根本目标，就是用数据的特征变量去对目标变量进行预测。那么我们所遇到的特征变量有哪些种类呢？各个种类又该如何处理呢？
总体而言，所有的特征变量可以归为两大类：定性特征和定量特征，我们依次看一下。

1. 定性特征变量

定性特征变量，泛指 分类变量/属性变量(qualitative, categorical or attribute variable)，比如种族（满汉蒙回…），性别（男和女），年级（小学、初中、高中）。
对定性特征变量细分，又可以分两种：定类变量（Norminal Data）和定序变量（Ordinal Data），区别在于定类变量间没有大小、先后等关系（比如性别），而定序变量有对应关系（比如年级）。

1.1 定类变量处理

变量的不同取值仅仅代表了不同类的事物，这样的变量叫定类变量。问卷的人口特征中最常使用的问题，而调查被访对象的“性别”，就是定类变量。对于定类变量，加减乘除等运算是没有实际意义的。
在机器学习的数据预处理中，对于定类变量通常可以使用one-hot编码进行处理，本质上就是将定类变量的类别转换为两两正交的向量，保证类别之间的独立性。由于编码成的向量长度为类别的数目，所以one-hot编码可能导致特征空间变得非常大，导致维度灾难，这个时候可以考虑降维处理，即one-hot encoding + PCA的方式。
如下示例代码：

from sklearn import preprocessing as prep
enc = prep.OneHotEncoder()
X = [['male', 'from US', 'uses Safari'