![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
特征工程
文章平均质量分 79
luoziyi927
这个作者很懒,什么都没留下…
展开
-
机器学习中的离散变量处理
背景离散型变量在某些机器学习任务中经常出现,有时离散型变量是否能够充分使用直接关系到我们训练的模型性能。虽然现在很多常用的机器学习方法都对离散型变量有了很好的支持,比如catboost、lightGBM等,但有时为了方便比较和尝试更多的模型方案,离散型变量的处理仍然是我们需要解决的问题。本文的重点在于对现有的常用离散变量处理方法进行梳理,并提供相应的方法函数供读者参考。由于能力有限其中难免有所梳理,欢迎大家多多指教,共同学习、共同进步!P.S. 由于精力有限,关于是什么和为什么的问题就不在此原创 2021-09-04 16:10:26 · 1450 阅读 · 0 评论 -
机器学习中面对缺失率过高的特征如何处理?
背景机器学习的本质是利用数据得到我们想要的函数关系,从而给出相关的预测。但是在实际生产过程中,由于各种原因很多样本采集的特征变量并不能做到完全覆盖所有样本,不同变量的缺失率可能达到70%以上。实际工作中对于这些变量的处理,我们可能并不是急于删除,而是首先从业务角度分析导致变量缺失率过高的原因,如果无法定位问题,接下来才是着手对缺失率过高的变量进行处理。缺失的种类完全随机缺失:没有规律,原因不详的缺失 随机缺失:该变量的缺失与其他其他变量有关。比如,变量A记录了某用户的用电量,变量B记录了记录用原创 2021-08-05 21:30:42 · 1980 阅读 · 0 评论