statistical machine learning
WeichaoZhu
还是要有梦想
展开
-
密度聚类学习总结
密度聚类的典型算法是DBSCANDBSCAN是由高密度区域和低密度区域划分的,更准确的说,DBSCAN算法的原理是由低密度区域划分出来高密度区域。因此,DBSCAN可以发现任何形状的簇。不像k-means,k-means的本质是默认每一簇的数据服从高斯分布(且方差也要相等),因此,簇的形状应该是凸形的。...原创 2018-05-17 15:29:46 · 440 阅读 · 0 评论 -
模型融合指南
模型融合 Model ensemblingCreating ensembles from submission files在这种方法中,你只需要测试集的预测结果,而不需要重新训练模型,优点是方便、快捷,尤其是在团队合作的时候体现较多。 Voting ensembles使用多数投票原则,适用于二(多)分类问题。70% accuracy的模型经过3个分类器融合,准确率可以提...翻译 2018-07-16 10:17:54 · 439 阅读 · 0 评论 -
LightGBM: A Highly Efficient Gradient Boosting Decision Tree 论文笔记
上一篇我们介绍了XGBOOST,这一篇我们趁热打铁来把LIGHTGBM也讲了! Abstract提出两个方法:Gradient-based One-Side Sampling (GOSS)(单边采样) 和 Exclusive Feature Bundling (EFB)(互斥特征捆绑).GOSS就是不考虑具有小梯度的数据,而这部分数据往往占有很大比重,只考虑会带来大梯度的数据。...翻译 2018-08-05 16:33:18 · 406 阅读 · 0 评论 -
XGBoost: A Scalable Tree Boosting System 论文笔记
ABSTRACT可扩展的端到端的提升树系统对于稀疏数据,提出稀疏感知算法对于近似树学习,提出加权的分位数速算缓存访问方式,数据压缩和分片,达到可扩展,节省资源,处理大规模数据1.INTRODUCTIONxgb和neural net的ensemble都取得了很好的效果。一种新颖的树学习算法,用于处理稀疏数据;理论上合理的加权分位数草图过程使得能够在近似树学习中处理实例...翻译 2018-08-01 22:30:05 · 980 阅读 · 0 评论