[数据预处理] onehot编码:是什么,为什么,怎么样
文章目录
什么是onehot编码
在机器学习算法中,我们经常会遇到离散化的特征或标签。
one-hot编码,又称“独热编码”。其实就是用N位状态寄存器编码N个状态,每个状态都有独立的寄存器位,且这些寄存器位中只有一位有效,说白了就是只能有一个状态。
为什么要进行onehot编码
对labels进行onehot编码的原因
对于离散化标签进行onehot编码的原因,是因为如果仅仅对原始的离散标签,比如图数据集Cora数据集的标签(‘Genetic_Algorithms’, ‘Probabilistic_Methods’, ‘Reinforcement_Learning’, ‘Neural_Networks’, ‘Theory’, ‘Case_Based’, ‘Rule_Learning’),仅仅用(1,2,3,4,5,6,7)对labels进行编码