安装xgboost:
conda install py-xgboost
下载demo的数据:
https://github.com/dmlc/xgboost
安装graphviz
conda install python-graphviz
数据
在demo/data里面:
- 训练集是:agaricus.txt.train、测试集是:agaricus.txt.test
- 可以直接把demo这个文件夹拷到程序下面
- 如果想要打开数据文件,可以下载Notepad++,数据的形式是以libsvm格式存在的,例如:
1 3:1 10:1 11:1 21:1 30:1 34:1 36:1 40:1 41:1 53:1 58:1 65:1 69:1 77:1 86:1 88:1 92:1 95:1 102:1 105:1 117:1 124:1
每一行代表一个样本,开头的’1’是样本标签。冒号前面是特征索引,冒号后面是特征值 - 这些数据有两种分类,“1”和“0”分别代表正样本和负样本,每个样本描述了蘑菇的22个属性,比如形状、气味等。然后给出这个蘑菇是否可食用
本身给出的原始数据为22维,将其加工后变成126维特征,即可以看作是有126个属性,其中6513个样本做训练、1611个样本做测试