这个问题其实是挺简单的,但是网上真的很不好找教程,尤其对于一些细节,就没人说过。估计大家可能也会一次次试验,我试了好多次终于成功,权当初学者一点帮助吧。
第一步自然是去Amazon注册账号。这里给的是EC2的地址,不过一样。 http://aws.amazon.com/ec2/ 现在Amazon提供了很多不同种类的云服务,存储的有S3,就和DropBox一个原理,不过没那么方便易用,主要用途还是在于作为其他计算服务的输入输出数据仓库一样;数据库有SimpleDB,是非关系型的数据库,貌似是BigTable类似结构的,还有关系型数据库,不过不免费。大部分服务都是有免费时间或存储容量的,EMR就没有,虽然很便宜,但是跑EMR必须要用到EC2,虽然用EC2跑其他一些东西是免费的,但用EC2跑EMR则不是免费的,所以跑一次价格大致是0.085*2(EC2)加 0.015*2(EMR),0.2美元。我每次都是跑至少两个机子的,一个是Master,必须有一个;另外一个是Core Instance,我也选了一个。
第二步就是在S3创建Bucket。Bucket相当你个人的一个文件夹,在所有S3bucket名字中必须是唯一的。
第三步,测试程序。建议各位先在本地的机子上把你的Hadoop文件打包成可执行Jar,跑一遍MapReduce后再准备修改。如果这一步都成功不了那在EMR上几乎肯定会失败的。命令格式 [hadoop -jar jar文件路径 参数]。EMR好像只支持0.18和0.20的Hadoop,编译记得用正确的Hadoop库版本。
第四步,上传输入输出文件,创建文件夹。