平均值编码

https://zhuanlan.zhihu.com/p/26308272

  1. 针对高基数定性特征(类别特征)的数据预处理

  2. 一般情况下,针对定性特征,我们只需要使用sklearn的OneHotEncoder或LabelEncoder进行编码

  3. OneHotEncoder:则能通过哑编码,制作出一个m*n的稀疏矩阵

  4. LabelEncoder :能够接收不规则的特征列,并将其转化为从0n-1的整数值、LabelEncoder将n种类别编码为从0到n-1的整数,虽然能够节省内存降低算法的运行时间,但是隐含了一个假设:不同的类别之间,存在一种顺序关系

  5. 平均数编码:在贝叶斯的架构下,利用所要预测的应变量(target variable),有监督地确定最适合这个定性特征的编码方式

  • 基本思想:将variable中的每一个k,都表示为(估算的)它所对应的目标y值概率

    \hat{P} (target = y | variable = k)。(估算的结果都用“^”表示,以示区分)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值