h2o高性能机器学习框架教程
本文为2016年H2O Open Chicago上的内容。
译者注:
在使用H2O前你需要:
- 安装java环境(需下载64位JDK,不然在R中不能控制通过
h2o.init()
函数来控制 内存) install.packages("h2o")
h2o
类似于python中的sklearn
,提供各种机器学习算法接口,我们需要此类框架的理由:
- 提供统一的接口,代码更加清晰简单
- 不需要一个模型一个数据格式
- 计算速度较快
在R中推荐使用data.table
包进行数据清洗,然后使用as.h2o
变成h2o包所接受的格式 ,再用h2o
包进行数据建模。
上面都是我的废话个人经验R使用经验。
下面开始教程:
首先加载h2o包,并在你本地机器上开启h2o集群
library(h2o)
h2o.init(nthreads = -1, #-1表示使用你机器上所有的核
max_mem_size = "8G") #max_mem_size参数表示允许h2o使用的最大内存
下面我们来导入一个已经经过数据清理的关于贷款的一个数据集,我们的目的是来预测这个贷款是否能按时偿还(二分类问题),响应变量bad_loan
,1表示未能偿还,0表示已经偿还。
loan_csv <- "https://raw.githubusercontent.com/h2oai/app-consumer-loan/master/data/loan.csv"
data <- h2o.importFile(loan_csv) #可以直接从一个URL中导入数据
dim(data) # 163,987 rows x 15 columns
由于我们是一个二分类问题,我们必须指定响应变量为一个因子类型(factor),若响应变量为0/1,H2O会认为他是一个数值,那将意味着H2O会训练一个回归模型
data$bad_loan <- as.factor(data$bad_loan) #编码为因子类型
h2o.levels(data$bad_loan) #查看因子levels
下面我将数据拆分成为训练集,验证集与测试集,
splits <- h2o.splitFrame(data = data,
ratios = c(0.7, 0.15), #训练集,验证集与测试集比例分别为70%, 15%, 15%
seed = 1) #setting a seed will guarantee reproducibility
train <- splits[[1]]
valid <- splits[[2]]
test <- splits[[3]]
我们来看下数据各部分的大小,注意h2o.splitFrame
函数为了运行效率采用的是近似拆分方法而不是精确拆分,故你会发现数据大小不是精确的70%, 15%与15%
nrow(train) # 114908
nrow(valid) # 24498
nrow(test) # 24581
指定因变量与自变量
y <- "bad_loan"
x <- setdiff(names(data), c(y, "int_rate"))
print(x)
# [1] "loan_amnt" "term"
# [3] "emp_length" "home_ownership"
# [5] "annual_inc" "verification_status"
# [7] "purpose" "addr_state"
# [9] "dti" "delinq_2yrs"
# [11] "revol_util" "total_acc"
# [13] "longest_credit_length"
我们已经将数据准备工作完成(译者注:在实际应用中我们需要大量的时间进行特征工程工作,由于本文是为了教授如何建模,故直接使用原始数据),下面我们将训练几个模型,主要的模型包括H20监督算法的:
- 广义线性回归模型