特征工程中常用编码方式优缺点

本文探讨了目标编码在处理高维数据特别是具有大量类别和领域经验特征时的优势,如IV较高但不适合One-hot编码的情况。同时指出了其缺点,如长尾类别可能引发过拟合,空值和未知类别处理困难,以及One-hot编码在计算效率和扩展性上的局限。另外,散列编码作为替代方案也被提及,尽管它易于实现且适应新类别,但局限于线性模型且解释性较差。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

## 目标编码

优点:

  • 高维数据特征:具有大量类别的不适用One-hot的特征;

  • 领域经验特征:根在特征度量方面得分很低,但IV比较高的特征。

缺点:

  • 长尾类别有过拟合风险;

  • 空值,未知类别不容易填充;

  • 独热编码-One-Hot Encoding

    优点:

    容易实现

    分类很精确

    可用于在线学习

    缺点:

    计算效率不高

    不能适应可增长的类别

    只适用于线性模型

    对于大数据集,需要大规模的分布式优化

    散列编码-Hash encoding

    优点:

    容易实现

    模型训练成本更低

    容易适应新类别

    容易处理稀有类

    可用于在线学习

    缺点:

    只适合线性模型或核方法

    散列后的特征无法解释

    精确度难以保证

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值