train.csv为训练数据集,该数据集是驾驶员行为识别聚类结果经处理后的数据。其中driver,trip这2列在构 建模型时没有用, Catrgory为类别标签,其余变量为有意义的特征
0 数据集的样子(没有截全,重点看catalog就好,是我们要预测的值)
使用H2oFrame构建模型
用全部的特征构建模型并预测,并计算准确度
利用train.csv中的数据,通过H2O框架中的随机森林算法构建分类模型,然后利用模型对 test.csv中的数据进行预测,并计算分类的准确度进而评价模型的分类效果;通过调节参数,观察分类准确度的变化情况。
注:准确度=预测正确的数占样本数的比例
import h2o
h2o.init() # 启动后可以通过httplocalhost54321flowindex.html 进入h2o
from __future__ import division <