机器学习特征处理——独热向量编码

最新推荐文章于 2024-04-28 20:16:45 发布

Forrest Gump Ma

最新推荐文章于 2024-04-28 20:16:45 发布

阅读量3.2k

点赞数 5

文章标签：大数据

本文链接：https://blog.csdn.net/qq_43874601/article/details/107753691

版权

在机器学习算法中，常会遇到分类特征是离散的，无序的。例如：性别有男、女，城市有北京，上海，深圳等。

性别特征：
[“男”，“女”] => 0，1
地区特征：
[“北京”，"上海，“深圳”] => 0，1，2
工作特征：
[“演员”，“厨师”，“公务员”，“工程师”，“律师”] => 0，1，2，3，4

性别特征：
[“男”，“女”] => 0，1
地区特征：
[“北京”，"上海，“深圳”] => 0，1，2
工作特征：
[“演员”，“厨师”，“公务员”，“工程师”，“律师”] => 0，1，2，3，4

什么是独热编码

独热编码（One-Hot Encoding），又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。即，只有一位是1，其余都是零值。

例如，对六个状态进行编码：
自然顺序码为 000,001,010,011,100,101
独热编码则是 000001,000010,000100,001000,010000,100000

回到一开始的例子，性别特征：[“男”,“女”]，按照N位状态寄存器来对N个状态进行编码的原理：

性别特征：[“男”，“女”]（这里N=2）
男 => 10
女 => 01

地区特征：[“北京”，"上海，“深圳”]（这里N=3）：
北京 => 100
上海 => 010
深圳 => 001

工作特征：[“演员”，“厨师”，“公务员”，“工程师”，“律师”]（这里N=5）：
演员 => 10000
厨师 => 01000
公务员 => 00100
工程师 => 00010
律师 => 00001

所以，样本的特征是[“女”,“北京”,“工程师”]的时候，独热编码（One-Hot Encoding）的结果为：

[0，1，1，0，0，0，0，0，1，0]

为什么要进行独热向量编码

在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的。而常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。
使用独热编码（One-Hot Encoding），将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用独热编码（One-Hot Encoding），会让特征之间的距离计算更加合理。
比如，上面的工作特征，该离散型特征，共有五个取值，不使用独热编码（One-Hot Encoding），其表示分别是：

演员 = (0)
厨师 = (1)
公务员 = (2)
工程师 = (3)
律师 = (4)

两个工作之间的距离是：

d(演员，厨师) = 1
d(厨师，公务员) = 1
d(公务员，工程师) = 1
d(工程师，律师) = 1
d(演员，公务员） = 2
d(演员，工程师） = 3

显然这样的表示，计算出来的特征的距离是不合理。那如果使用独热编码（One-Hot Encoding），则得到d(演员，厨师) = 1与d(演员，公务员）都是1。那么，两个工作之间的距离就都是sqrt(2)。即每两个工作之间的距离是一样的，显得更合理。

什么情况下不需要独热向量编码

1、如果特征是离散的，并且不用独热编码就可以很合理的计算出距离，就没必要进行独热编码。（比如，离散特征共有1000个取值，分成两组是400和600,两个小组之间的距离有合适的定义，组内距离也有合适的定义，就没必要独热编码）
2、有些并不是基于向量空间度量的算法，数值只是个类别符号，没有偏序关系，就不用进行独热编码。
3、如果原本的标签编码是有序的，就不必独热编码了，因为会丢失顺序信息。

Forrest Gump Ma

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
机器学习特征处理——独热向量编码

在机器学习算法中，常会遇到分类特征是离散的，无序的。例如：性别有男、女，城市有北京，上海，深圳等。性别特征：[“男”，“女”] => 0，1地区特征：[“北京”，"上海，“深圳”] => 0，1，2工作特征：[“演员”，“厨师”，“公务员”，“工程师”，“律师”] => 0，1，2，3，4性别特征：[“男”，“女”] => 0，1地区特征：[“北京”，"上海，“深圳”] => 0，1，2工作特征：[“演员”，“厨师”，“公务员”，“工程师”，“律师”
复制链接

扫一扫