本文介绍通过 AWS 管理控制台创建示例 Amazon EMR 集群的流程。然后,您将以步骤形式运行 Hive 脚本,以处理存储在 Amazon S3 中的示例数据。
1.设置示例集群的先决条件
1) 创建 Amazon S3 存储桶
Amazon S3 中的每个数据元都存储在存储桶中。必须先创建一个存储桶,然后才能在 Amazon S3 中存储数据。
Tips:
只有将对象存储到存储桶中以及向存储桶传入对象/从存储桶传出对象时才需要付费。
首先登录Console,打开 Amazon S3 控制,单击CreateBucket
在“创建存储桶”对话框中,请在“存储桶名称”框中输入存储桶名称。
Tips:
所选的存储桶名称在 Amazon S3 的所有现有存储桶名称中必须具有唯一性。确保唯一性的一种办法是以您所在的组织的名称作为您的存储桶名称的前缀。存储桶创建后,便无法再更改名称。此外,存储桶名称会显示在指向存储桶中存储的数据元的 URL 中。请确保选择适当的存储桶名称。
在“Region”框中,选择一个地区
Tips:
您可以选择一个地区来优化延迟、最小化成本或满足法规要求。数据元一旦存储在某一地区,便不会离开,除非您特意将其传输