亚马逊EMR 熟悉

最新推荐文章于 2024-06-05 14:57:23 发布

weixin_40988315

最新推荐文章于 2024-06-05 14:57:23 发布

阅读量927

点赞数

分类专栏：亚马逊云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40988315/article/details/81974296

版权

亚马逊云计算专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Amazon EMR 是一个托管集群平台，可简化在AWS上运行大数据框架（Hadoop 和spark）以处理和分析海量数据的操作。借助相关的开源项目（Hive和Pig），处理数据和商业只能工作负载。还可以使用EMR转换大量数据和将大量数据移入和移出其他AWS数据存储和数据库如S3和DynamoDB。

集群(cluster) ，一组EC2实例的集合，每一个节点都有不同的角色即节点类型

主节点;管理集群以实现处理作业，协调数据和任务在其他从属节点的分配，跟踪监控状态。

核心节点：运行任务，存储数据

任务节点：只运行人物，不存储数据，可选

向集群提交工作时需要：完整定义mapreduce中的工作、创建集群、安装hadoop软件、连接集群并提交任务

存储： HDFS、EMRFS（直接访问S3内的数据）本地文件系统

集群资源管理：YARN

数据处理框架： Hadoop mapredcue 以及spark

应用程序：Hive、Pig、spark streaming 等

入门实例利用EMR分析大数据

1 创建S3存储桶，设置输入数据和输出数据

2启动集群cluster 设置包括：预先安装程序模板实例类型个数权限等

3准备数据和脚本存放到s3中

4 在setp中设置数据和脚本的存储位置，加载setp进行数据处理

weixin_40988315

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
亚马逊EMR 熟悉

Amazon EMR 是一个托管集群平台，可简化在AWS上运行大数据框架（Hadoop 和spark）以处理和分析海量数据的操作。借助相关的开源项目（Hive和Pig），处理数据和商业只能工作负载。还可以使用EMR转换大量数据和将大量数据移入和移出其他AWS数据存储和数据库如S3和DynamoDB。集群(cluster) ，一组EC2实例的集合，每一个节点都有不同的角色即节点类型主节点;...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。