luoziyi927-CSDN博客

原创 XGBoost 相比传统 GBDT 有何不同？XGBoost 的特点是什么？XGBoost 为什么快？XGBoost 如何支持并行？

（0）实际上GBDT泛指所有梯度提升树算法包括XGBoost，为了区分，通常GBDT特指只用了一阶导数信息的算法。（1）传统GBDT仅以CART回归树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。（2）传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。xgboost工具支持自定义代价函数，要求函数可一阶和二阶求导。（3）xgboost在

2021-09-27 13:52:17 326

原创新手leetcode必刷70题

参考文章：刷完这70道力扣，你就可以走出新手村啦(文字版)

2021-09-15 22:00:50 420

原创机器学习中的离散变量处理

背景离散型变量在某些机器学习任务中经常出现，有时离散型变量是否能够充分使用直接关系到我们训练的模型性能。虽然现在很多常用的机器学习方法都对离散型变量有了很好的支持，比如catboost、lightGBM等，但有时为了方便比较和尝试更多的模型方案，离散型变量的处理仍然是我们需要解决的问题。本文的重点在于对现有的常用离散变量处理方法进行梳理，并提供相应的方法函数供读者参考。由于能力有限其中难免有所梳理，欢迎大家多多指教，共同学习、共同进步！P.S. 由于精力有限，关于是什么和为什么的问题就不在此

2021-09-04 16:10:26 1579

原创机器学习中面对缺失率过高的特征如何处理？

背景机器学习的本质是利用数据得到我们想要的函数关系，从而给出相关的预测。但是在实际生产过程中，由于各种原因很多样本采集的特征变量并不能做到完全覆盖所有样本，不同变量的缺失率可能达到70%以上。实际工作中对于这些变量的处理，我们可能并不是急于删除，而是首先从业务角度分析导致变量缺失率过高的原因，如果无法定位问题，接下来才是着手对缺失率过高的变量进行处理。缺失的种类完全随机缺失：没有规律，原因不详的缺失随机缺失：该变量的缺失与其他其他变量有关。比如，变量A记录了某用户的用电量，变量B记录了记录用

2021-08-05 21:30:42 2339