编
码
化
1.编码化是把变量通过某种方式映射成更符合逻辑或更易入模的特征的一种方法
2.特征工程主要有三种编码方法:标签编码、独热编码和woe编码
3.标签编码是把定序文本类别变量转化成数值类别变量
4.独热编码是把无序类别变量转换成多个变量
5.woe编码是金融风控评分卡的编码方式
特征工程的编码化是把变量通过某种方式映射成更符合逻辑或更易入模的特征的一种变量处理方法。它是机器学习建模很重要的一种方法。它主要是解决变量不可用(比如文本)、变量平等化(小编自己取的名字,比如用数字表示的定类变量)、变量证据权重化(woe转换,这是金融风控评分卡重点的内容)。对应的编码方法是标签编码、独热编码和woe编码。
本文会介绍前两种,woe编码会单独出一篇文章详