https://zhuanlan.zhihu.com/p/26308272
-
针对高基数定性特征(类别特征)的数据预处理
-
一般情况下,针对定性特征,我们只需要使用sklearn的OneHotEncoder或LabelEncoder进行编码
-
OneHotEncoder:则能通过哑编码,制作出一个m*n的稀疏矩阵
-
LabelEncoder :能够接收不规则的特征列,并将其转化为从
到
的整数值、LabelEncoder将n种类别编码为从0到n-1的整数,虽然能够节省内存和降低算法的运行时间,但是隐含了一个假设:不同的类别之间,存在一种顺序关系。
-
平均数编码:在贝叶斯的架构下,利用所要预测的应变量(target variable),有监督地确定最适合这个定性特征的编码方式
-
基本思想:将variable中的每一个k,都表示为(估算的)它所对应的目标y值概率:
。(估算的结果都用“^”表示,以示区分)