类别特征编码

https://blog.csdn.net/weixin_39671140/article/details/84801409
https://blog.csdn.net/weixin_42585595/article/details/88320997

使用的函数
:https://blog.csdn.net/jin_tmac/article/details/80611676

如何解决 target encoding 的 target leakage
:https://zhuanlan.zhihu.com/p/136174936 target statistics
特征选择补充
:https://blog.csdn.net/weixin_37861936/article/details/103601163

2.2.1对于类别取值比较多的情况下,使用独热编码注意以下问题:
(1)使用稀疏 向量来节省空间。独热编码下,特征向量只有某一维取值1,其他位置取值为0;这样可以有效节省空间,并且现在大部分算法均接受稀疏向量形式的输入

(2)配合特征选择来降低维度。高维度特征会带来几方面问题:一是K邻近算法中,高维度空间亮点之间的距离很难得到有效衡量;二是在逻辑回归 模型中,参数的数量会随着维度的增高而增加,容易引起过拟合;三是通常只有部分维度对分类、预测有帮助,因此可以考虑配合特征选择降低维度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值