为了比较在不同语言环境下使用xgboost的效果。最近想试一下这个库。
实质上spark mlib中的GBT算法一直在使用,在规模超过50万的训练集上进行生成模型,速度就已经相当慢。
XGBOOST是一个各个语言的库,有C++版,R,PYTHON版本。
于是最近也尝试着去安装一下别的语言版本效果。
然而在编译安装的时候也是各种坑。
(1) GITHUB上下载的源码版本没有WINDOW的编译环境,安装MINGW进行编译时对GCC编译版本,不同版本出来限制很多。在尝试很多办法后,还是放弃了。不过在LINUX服务器上安装倒是非常简单。
(2) https://pypi.python.org/pypi/xgboost/,在这里面下载xgboost-0.4a30.tar.gz (md5)这个版本。
此版本下WINDOWS目录下有个SLN文件,可以用VISUAL STUDIO 进行编译。我选用了VS2015来编译。
(3)启用VS2015的时候,首先要安装WINDOWS SDK 7(我的系统是WIN7)。才能进入下一步。
(4) 在项目中各个库编译过程中,要选择在64位的输出结果,否则在编译rabit过程中会出现LNK156错误,即无法定义入口。 该源码默认选用的是WIN32输出,
但是电脑安装的是64位,所以必须进行更改。
(5) 这依次编译各个包,果然非常顺利!!!