处理类别型变量时能够有效工作,常见的方法包括:
- One-Hot编码
优点:简单直接,把类别型变量转换为数值型变量,每个类别转换为一个独立的二进制特征。
缺点:对于高基数(high cardinality)的类别型变量,One-Hot编码会显著增加特征维度,可能导致数据稀疏性问题。
- 频率编码(Frequency Encoding)
方法:将类别型变量转换为其在数据集中出现的频率。适用于类别数量较多但频率分布有意义的情况。
优点:保留了类别频率的信息,维度不会增加。
缺点:可能会引入某些偏差,特别是在类别分布不均匀时。
- 目标编码(Target Encoding)
方法:将类别型变量转换为与目标变量相关的统计量(如均值、概率等)。通常用于有监督学习,但在某些情况下也可用于无监督学习。
优点:利用目标变量的信息,可以提高模型性能。
缺点:容易引入过拟合,需要谨慎处理。