categorical and ordinal feature

categorical and ordinal feature

比如泰坦尼克号的Pclass 代表乘客乘坐的是几等仓

1,2,3是有顺序的,代表越贵的仓

而且注意:1和2之间的差距,与 2和3之间的差距 并不相同

顺序有意义的 categorial feature就是 ordinal feature

--------------------------------------------------------------------------------------------------------------------

可以看到,没有进行one hot之前,线性模型表现不好,而tree model能很好的分类。

 

 

---------------------------------------------------------------------------------------------

pandas factorize 对categorical feature进行编码

排序前为S C Q

排序后为C Q S

 

-------------------------------------------------------------------------------------------

下面是完全计算出频率作为特征:

这种特征对 树模型和线性模型都有帮助,因为频率和target很可能相关

 

---------------------------------------------------------------------------------------------------------------------------------

pandas.get_dummies

sklearn.preprocessing.OneHotEncoder

one hot编码对线性模型有帮助

但是如果categorical feature有很多种取值,树模型由于特征太多将会很慢。而且此时必须使用sparse matrix

-----------------------------------------------------------------------------------------------------------------

特征组合:

特征组合可以提升线性模型的性能。不过注意,neural network本来就可以进行各种组合,所以不用再做。

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值