最近在尝试kaggle中machine learning的竞赛,为了提高成绩强上了deep learning的算法。然而,deep learning耗资源,速度慢,不用个hadoop,单机一跑就是好几天,于是摸索着想在azure上快速搭建一个能跑deep learning的hadoop环境。 H2o(http://0xdata.com/product/ )是我在R上首先尝试的deep learning包,查了文档发现它其实最开始是作为hadoop应用被开发出来的,之后再被推广到R,Python等语言。作为一个资深的懒人,通过一番google找到了如下最省力的搭建方法:
- 使用Azure搭建hadoop VM (作为微软员工本来就开通了免费Azure账号
)
- 直接在Azure Marketplace上加载Hortonworks Hadoop Sandbox (比起在Linux上装Hadoop不知道方便多少个指数倍)
- 在Hortonworks Hadoop Sandbox 上安装开源H2o deep learning应用平台, 直接包含主流deep learning 算法 (直接上 torch 的大神小女子接受各位的鄙视)
- 熟读H2o 教程,导入数据调整参数跑模型!
然而,看似如此简单易懂的几步,安装过程不需要任何编程技能,却着实让楼主好一顿倒腾,期间遇到了各种坑,不胜唏嘘, 从头说起。
第一步:开通Azure账号
八仙过海,各显神通,请保证Azure账号里长期余额超过1000大洋,否则分分钟让你停机!(Azure上VM按分钟收费哦亲!)