类别特征无法直接使用,需要编码后才能进行相关计算分析
相关python包Category Encoders
数值编码
直接将类别A,B,C …映射到1,2,3…,适用于存在大小内在关系的类别特征(ordinal feature),编码后类别间的距离(范数)不同,对于一般的学习器不具有使用普遍性。
热独编码(One-Hot Encoding)
将类别A,B,C 映射到 ( 1 , 0 , 0 ) , ( 0 , 1 , 0 ) , ( 0 , 0 , 1 ) (1,0,0),(0,1,0),(0,0,1) (1,0,0),(0,1,0),