R语言机器学习框架h2o基础学习教程

最新推荐文章于 2023-12-18 09:24:45 发布

weixin_33967071

最新推荐文章于 2023-12-18 09:24:45 发布

阅读量4.6k

点赞数 1

文章标签： r语言人工智能 java

原文链接：https://segmentfault.com/a/1190000011563382

版权

h2o高性能机器学习框架教程

本文为2016年H2O Open Chicago上的内容。

译者注：

在使用H2O前你需要：

安装java环境(需下载64位JDK，不然在R中不能控制通过h2o.init()函数来控制内存)
install.packages("h2o")

h2o类似于python中的sklearn,提供各种机器学习算法接口，我们需要此类框架的理由：

提供统一的接口，代码更加清晰简单
不需要一个模型一个数据格式
计算速度较快

在R中推荐使用data.table包进行数据清洗，然后使用as.h2o变成h2o包所接受的格式，再用h2o包进行数据建模。

上面都是我的废话~~个人经验R使用经验~~。

下面开始教程：

首先加载h2o包，并在你本地机器上开启h2o集群

library(h2o)
h2o.init(nthreads = -1, #-1表示使用你机器上所有的核
         max_mem_size = "8G")  #max_mem_size参数表示允许h2o使用的最大内存

下面我们来导入一个已经经过数据清理的关于贷款的一个数据集，我们的目的是来预测这个贷款是否能按时偿还（二分类问题），响应变量bad_loan，1表示未能偿还，0表示已经偿还。

loan_csv <- "https://raw.githubusercontent.com/h2oai/app-consumer-loan/master/data/loan.csv"
data <- h2o.importFile(loan_csv)   #可以直接从一个URL中导入数据
dim(data) # 163,987 rows x 15 columns

由于我们是一个二分类问题，我们必须指定响应变量为一个因子类型(factor)，若响应变量为0/1,H2O会认为他是一个数值，那将意味着H2O会训练一个回归模型

data$bad_loan <- as.factor(data$bad_loan)  #编码为因子类型
h2o.levels(data$bad_loan)  #查看因子levels

下面我将数据拆分成为训练集，验证集与测试集，

splits <- h2o.splitFrame(data = data, 
                         ratios = c(0.7, 0.15),  #训练集，验证集与测试集比例分别为70%, 15%, 15%
                         seed = 1)  #setting a seed will guarantee reproducibility
train <- splits[[1]]
valid <- splits[[2]]
test <- splits[[3]]

我们来看下数据各部分的大小，注意h2o.splitFrame函数为了运行效率采用的是近似拆分方法而不是精确拆分，故你会发现数据大小不是精确的70%, 15%与15%

nrow(train)  # 114908
nrow(valid) # 24498
nrow(test)  # 24581

指定因变量与自变量

y <- "bad_loan"
x <- setdiff(names(data), c(y, "int_rate"))  
print(x)
# [1] "loan_amnt"             "term"                 
# [3] "emp_length"            "home_ownership"       
# [5] "annual_inc"            "verification_status"  
# [7] "purpose"               "addr_state"           
# [9] "dti"                   "delinq_2yrs"          
# [11] "revol_util"            "total_acc"            
# [13] "longest_credit_length"

我们已经将数据准备工作完成(译者注：在实际应用中我们需要大量的时间进行特征工程工作，由于本文是为了教授如何建模，故直接使用原始数据)，下面我们将训练几个模型，主要的模型包括H20监督算法的：

广义线性回归模型

最低0.47元/天解锁文章

weixin_33967071

关注

1
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
R语言机器学习框架h2o基础学习教程

h2o高性能机器学习框架教程本文为2016年H2O Open Chicago上的内容。译者注：在使用H2O前你需要：安装java环境(需下载64位JDK，不然在R中不能控制通过h2o.init()函数来控制内存)install.packages("h2o")h2o类似于python中的sklearn,提供各种...
复制链接

扫一扫