![323f0080bfdabf9f25ef4e1aa388c87a.png](https://img-blog.csdnimg.cn/img_convert/323f0080bfdabf9f25ef4e1aa388c87a.png)
0 前言
在机器学习中,大多数算法,譬如逻辑回归,支持向量机SVM,k近邻算法等都只能够处理数值型数据,不能处理文字,在sklearn当中,除了专用来处理文字的算法,其他算法在fit的时候全部要求输入数组或矩阵,也不能够导入文字型数据(其实手写决策树和朴素贝叶斯可以处理文字,但是sklearn中规定必须导入数值型)。
然而在现实中,许多标签和特征在数据收集完毕的时候,都不是以数字来表现的。比如说,学历的取值可以是["小学",“初中”,“高中”,"大学"],付费方式可能包含["支付宝",“现金”,“微信”]等等。在这种情况下,为了让数据适应算法和库,我们必须将数据进行编码,即是说,将文字型数据转换为数值型。
1 类别型特征分类
并不是所有的类别型特征都能统一的转换为数值型,在转换之前要先对类别进行一个分析,总体来说,类别型特征可以分为定类变量、定序变量、定距变量和定比变量。
- 定类变量:如性别(男、女、其他),三种取值之间是相互独立的,彼此之间完全没有关系,这种变量称之为名义变量。
- 定序变量:如学历