Dummy variable (变量dummy化)

BY joey周琦

总是可以从身边同学口中听到说到dummy化,dummy lr, 今天自己看了dummy variable的wiki,这里记下笔记总结:

  • dummy variable是用0或1表示某个类别是否出现
  • 为什么要dummy化
    • 若用数字1-12表示1-12月,那么就潜在表示了12月和1月差的很远,其实离的很近
    • 若用离散数字表示一地域,假如用数字1-23表示23个省,那么数字潜在的意思是,相邻的数字代表的省比较相似,差距的数字表示的省不相似,然而并没有这个意思。所以用单纯用离散的数字表示类别可能会影响后面回归或分类的精度
  • 另外要注意的是,dummy化不要冗余,比如有1-23个省,我们用22个0,1变量就可以表示,若22个变量都是0则表示第23个省。
  • 11
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值