Windows Azure大数据(HDInsight Service)服务入门

原文地址: http://www.windowsazure.com/en-us/manage/services/hdinsight/get-started-hdinsight/

 

这篇文章带领读者开始使用微软公有云(Windows Azure)的HDInsight大数据服务。HDInsight服务将Apache Hadoop, HDFS和MapReduce纳入到一个更加简单的,可扩展的,更经济的云环境中。

特别是,它提供了Javascript和Hive的控制台,大大简化了针对Hadoop任务的配置、运行和后处理。JavaScript控制台专为HDInsight设计,它支持Pig Latin, JavaScript和Hadoop文件系统命令行。HDInsight还提供了廉价的数据管理和存储服务。它使用Azure的存储服务,计算资源可以方便的访问存储设备,数据也存放在相对便宜的Blob存储中。

下面,我们开始使用Windows Azure的Hadoop服务。

注册Windows Azure账户并激活Hadoop服务

- 如果您还没有Windows Azure账户,可以到这里注册90天免费试用账号。注意:由于Windows Azure还没有在中国大陆正式开通,您需要一个香港或美国的手机进行注册。

- 如果您已经有Windows Azure账户,请按照这里的步骤激活Hadoop服务

创建一个Windows Azure存储账户

在左边的导航栏选择"存储“,屏幕左下角点击”创建“。注意,请将存储账号创建在美国东部的数据中心, 因为HDInsight的计算节点将会部署在美国东部。如下图:

部署一个HDInsight服务集群

下面我们会部署一个Hadoop Cluster (Hadoop 集群):

1. 登陆Windows Azure管理界面

2. 在左边的导航栏中点击"HDInsight".

3. 在屏幕下方点击“新建”。然后填写需要的参数。注意,这里的密码必须满足“最短10位”,“至少包含一个大写字母”,“至少包含一个小写字母”,“至少包含一个特殊字符”的要求。

注意:

1) 这里系统自动创建的用户名是admin。如果您需要修改这个用户名,只能通过"custom create"的方式。

2) 系统将集群自动创建在美国东部的数据中心。这是为何我们将存储建在美国东部的原因。

HDInsight服务仪表盘和范例库

1. 打开浏览器,进入这个URL: https://<hdinsight实例名>.azurehdinsight.net. 例如: https://shirleysample.azurehdinsight.net/.

2. 输入用户名和密码以后,您会看到如下HDInsight页面。

 

3. 点击Samples, 你会看到5个例子。

运行WordCount这个例子,体验Hadoop中的MapRedue任务

- WordCount MapRedue程序介绍

1. WorkCount是用Java实现的一个MapReduce程序

2. 这个程序的输入文件是Project Gutenberg 中电子版的"The Notebooks of Leonardo Da Vinci"。

3. 输出是一组key-value对。key的值是一个词语,value是这个词语在输入文件中出现的次数。这个工作分两个阶段进行。Mapper (cat.exe)程序从文件抽取一句话,将它分解成词语。一旦出现了一个词语,这个程序就将词语作为key, 并把它的value设成1。Reducer(wc.exe)程序将mapper程序产生的key-value汇总。把相同的词语合并起来,并计算出现的次数。

- 运行WorkCount例子

1. 点击WordCount的图标,出现部署页面。

2. 在Create Job的页面中,点击"execute Job".

3. 在上图中所有的参数都带有默认的赋值。Job Name是WordCount。第一个参数是程序的名字:wordcount。第二个参数分别是输入和输出文件的路径。输入文件:asv:///example/data/gutenberg/davinci.txt 输出文件:asv:///DaVinciAllTopWords。注意这里的asv://表示的是azure blob storage。

4. Final Command是Hadoop的Jar命令.

5. 当wordcount部署成功后,你会看到如下页面。

- 在交互平台检查程序的输出

1. 在HDInsight页面中输入#ls asv:///DaVinciAllTopWords,查看输出文件夹是否产生了文件

2. 查看输出文件内容。输入: file = fs.read("asv:///DaVinciAllTopWords")

实验完成!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值