在机器学习中为什么要进行 One-Hot 编码?
入门机器学习应用,尤其是需要对实际数据进行处理时,是很困难的。
一般来说,机器学习教程会推荐你或要求你,在开始拟合模型之前,先以特定的方式准备好数据。
其中,一个简单的例子就是对类别数据(Categorical data)进行 One-Hot 编码(又称独热编码)。
- 为什么 One-Hot 编码是必要的?
- 为什么你不能直接使用数据来拟合模型?
在本文中,你将得到上述重要问题的答案,并能更好地理解机器学习应用中的数据准备工作。
什么是类别数据?
类别数据是一种只有标签值而没有数值的变量。
它的值通常属于一个大小固定且有限的集合。
类别变量也常被称为 标称值(nominal)
下面举例说明:
- 宠物(pet)变量包含以下几种值:狗(dog)、猫(cat)。
- 颜色(color)变量包含以下几种值:红(red)、绿(green)、蓝(blue)。
- 位次(place)变量包含以下几种值:第一(first)、第二(sec