xgboost
文章平均质量分 65
Michael_Shentu
感兴趣方向:分布式计算与存储,广告计算学,分布式数据挖掘与机器学习,Hadoop,Spark,HBase
展开
-
windows下编译xgboost 并在eclipse中导入xgboost
1、相关环境配置介绍:64bit的windows下,2013版 VS, python 3.6, sklearn0.182、BOOST编译安装github下载地址: https://github.com/dmlc/xgboost/releases,用的最新版本 0.4x2.1 下载,导入解决方案下载成功后,打开xgboost-0.47源文件夹下的windows原创 2017-05-27 15:34:36 · 1043 阅读 · 0 评论 -
GBDT 梯度提升决策树的简单推导
GB, 梯度提升,通过进行M次迭代,每次迭代产生一个回归树模型,我们需要让每次迭代生成的模型对训练集的损失函数最小,而如何让损失函数越来越小呢?我们采用梯度下降的方法,在每次迭代时通过向损失函数的负梯度方向移动来使得损失函数越来越小,这样我们就可以得到越来越精确的模型。假设GBDT模型T有4棵回归树构成:t1,t2,t3,t4,样本标签为Y(y1,y2,y3,.....yn)设定原创 2017-03-14 17:31:53 · 7854 阅读 · 1 评论 -
GBDT与梯度的理解
GBDT 全称为 Gradient Boosting Decision Tree。顾名思义,它是一种基于决策树(decision tree)实现的分类回归算法。不难发现,GBDT 有两部分组成: gradient boosting, decision tree。Boosting 作为一种模型组合方式,与gradient descent 有很深的渊源,它们之间究竟有什么关系?同时 decisio转载 2017-05-30 17:16:36 · 7138 阅读 · 4 评论 -
训练XGBoost的一些脚本,
https://www.kaggle.com/happycube/bosch-production-line-performance/scirpus-extreme-bayes-faron-36312/code说明:这个脚本是训练XGBoost的脚本,值得去学习,特别是XGBoost的一些参数设置[python] view plain copy转载 2017-05-21 17:45:25 · 756 阅读 · 0 评论 -
数据分析脚本&分析特征跟label的关系&缺失特征&缺失交叉特征&相关性热图
https://www.kaggle.com/dollardollar/bosch-production-line-performance/eda-of-important-features/comments说明:这个链接里,进行数据分析的脚本可以借鉴。有如下几个功能:1、分析特征跟label的关系2、分析,不同label的样本,其缺失的比例3、绘制相关性热图转载 2017-05-21 18:06:37 · 3220 阅读 · 0 评论 -
如何解决gcc版本冲突
今天碰到一个比较坑爹的问题,在centos上用yum安装编译环境,运行:yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel结果导致编译cocos2d-x出现错误:cc1plus: error: unrecognized command line option "-std=c++1转载 2017-07-06 16:23:17 · 2444 阅读 · 0 评论 -
xgboost 二分类问题实例
二分类问题本文介绍XGBoost的命令行使用方法。Python和R的使用方法见https://github.com/dmlc/xgboost/blob/master/doc/README.md。下面将介绍如何利用XGBoost解决二分类问题。以下使用的数据集见mushroom dataset简介产生输入数据XGBoost的输入数据格式和LibSVM一样。下面是XGB原创 2017-07-24 20:49:23 · 7397 阅读 · 1 评论 -
XGBoost解决多分类问题
XGBoost解决多分类问题写在前面的话 XGBoost官方给的二分类问题的例子是区别蘑菇有无毒,数据集和代码都可以在xgboost中的demo文件夹对应找到,我是用的Anaconda安装的XGBoost,实现起来比较容易。唯一的梗就是在终端中运行所给命令: ../../xgboost mushroom.conf 时会报错,是路径设置的问题,所以我干脆把xgboost文原创 2017-09-25 14:46:24 · 5709 阅读 · 1 评论 -
xgboost等Tree-Model 对于特征是否需要进行one-hot编码的必要性分析
参考链接:https://blog.csdn.net/pipisorry/article/details/61193868xgboost 对所有的输入特征都是当做数值型对待,所以你给定的数据也要是指定的数据类型对于数据缺失或者稀疏,xgboost 都可以自己处理纠结于 one-hot 编码问题主要是将分类信息转化为一定长度索引的二进制数据假设当前的数据类型是 annima...原创 2018-09-30 23:29:59 · 10888 阅读 · 1 评论