分类问题

特征值为空如何处理?

参考资料:
https://www.zhihu.com/search?type=content&q=%E7%89%B9%E5%BE%81%E5%80%BC%E4%B8%BA%E7%A9%BA
最后决定取均值了。
不过这个问题还是值得思考的,依研究问题的不同,做法也不尽相似,基本思想就是根据其他数据信息来进行填充,这对于图像处理来说是个不错的选择。

仔细想想,我的特征值是距离,这个取平均值,似乎就不是那么合理了,不过如果数据量很大,寻找一个大概的分布规律,按照分布取均值,应该还是可以的。

特征值不是同一种数据格式

选取的特征值肯定不是同一种属性,比如年龄,薪水,如何处理?
1。 最常见做法:对同一列做标准化(需要属性服从正态分布)
2。区间缩放法:
value - min /(max - min)

卡方检测

其实是假设两个变量不相关的情况下,用最大似然估计每种情况出现的频率f,
然后累计(f-real)^2/real

sklearn

真的要种草这个库了,上面的问题,居然都有解释说明,很不错。
http://blog.csdn.net/myproudcodelife/article/details/52515849

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值