在Azure HDInsight中创建R服务器,并利用Spark集群进行分布式R分析

关于R语言

R作为一种编程语言和软件运行环境,近年来被数据科学家广泛使用。它是一种解释性语言,在R library中自带很多统计学方法(statistical methods)和图形算法,例如线性回归分析,决策树,经典统计学测验等等。另外,通过Functions和Extensions,也可以很容易的对R进行扩展,增加数据模型和分析算法。R Studio是一个R语言的集成开发环境(IDE):

我们也可以通过R Console 编辑和运行R脚本。例如:

> x <- c(1,2,3,4,5,6)   # Create ordered collection (vector)
> y <- x^2              # Square the elements of x
> print(y)              # print (vector) y
[1] 1 4 9 16 25 36

关于Azure HDInsight中的R服务器(R Server)

R本身是开源的,很多厂商对于Open source R进行封装和扩展后,提供R商用系统(例如Revolution R, Oracle和IBM的大数据分析系统等)。微软的Azure HDInsight提供了R Server for HDInsight,它将企业级R分析软件和Hadoop Spark集群相结合,提供了一个大规模、高性能的R分析(R Analytics)环境。在写这篇文章的时候,R Server for HDInsight在中国Azure( www.windowsazure.cn)还没有上线,读者只能通过海外Azure平台( www.windowsazure.com)使用。要了解更多R Server for HDInsight,可以访问: https://azure.microsoft.com/zh-cn/services/hdinsight/r-server/

在HDInsight集群中创建R Server,并通过设置不同的Compute Context观察性能差异

下面是我们即将开始的试验的架构图:

 第一步:创建R Server Cluster

1. 登录到global azure (http://portal.azure.com) 

2. 选择NEW, Intelligence+ Analytics,然后选HDInsight



3. 为集群指定一个名称


4. 选择Cluster ConfigurationClusterConfiguration这一项,cluster type选择R-Server,版本选择最新,其余的保持默认设置即可,然后点击select。Microsoft R-Server release notes: https://msdn.microsoft.com/en-us/microsoft-r/notes/r-server-notes.


5. 选择Credentials,设置集群登录用户名和认证信息。为集群登录用户

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值