MapReduce运行机制(一) 剖析MR作业运行机制

剖析MR作业运行机制


MR作业:

1) 客户端:提交MapReduce作业

2) YARN Resource Manager,协调集群资源分配

3) YARN Node Manager,启动和监控集群计算容器

4) MapReduce application master,协调运行MR作任务。和MR任务在容器中运行,容器由RM分配,NM启动,监控和管理

5) HDFS 与其他实体间共享作业文件


提交作业

Job的submit()方法创建JobCommitter的实例,并调用submitJobInternal()。提交作业后,waitForCompletion()每秒轮询作业进度,如果与上次报告有改变,则将进度报告到控制台。完成后如果成功,显示Counter,如果失败,显示错误详细信息。


Jobcommitter作业提交过程:

1) 向RM申请新的application ID, 用于MR Job ID

2) 检查作业的输出说明,有错误则抛出给MR程序,无错误则提交

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MapReduce安全机制是通过结合不同的技术和组件来保护计算过程和结果的隐私安全性。其中,Airavat是一个在MapReduce中实现了强制访问控制和差分隐私保护的工具。它结合了Selinux、DFS、JVM和MapReduce,确保了计算过程和结果的隐私安全性。 在MapReduce中,有一些常见的安全机制和措施,包括: 1. 访问控制:通过设置访问权限和角色控制,限制对MapReduce任务和数据的访问。 2. 身份验证和授权:使用身份验证机制,确保只有经过授权的用户才能执行MapReduce任务。 3. 数据加密:对敏感数据进行加密,以保护数据的机密性。 4. 安全传输:使用安全传输协议(如HTTPS)来保护数据在节点之间的传输过程中的机密性和完整性。 5. 审计和日志记录:记录MapReduce任务的执行过程和访问日志,以便进行审计和故障排除。 除了上述安全机制外,MapReduce还有一些其他的安全考虑,例如: - 文件切分和数据源:MapReduce可以处理分布式系统中存储在多个节点上的文件。文件切分和数据源的管理由Hadoop框架负责。 - 数据切分和分组:MapReduce将输入数据切分为多个数据块,并将这些数据块分配给不同的Map任务进行处理。Reduce任务接收到来自不同Map任务的输出后,会根据键值对进行分组和排序。 - 多个Reduce任务:MapReduce框架支持多个Reduce任务并行执行,可以通过配置来控制Reduce任务的数量和任务划分。 总结起来,MapReduce安全机制通过结合不同的技术和组件,如访问控制、身份验证、数据加密、安全传输、审计和日志记录等,来保护计算过程和结果的隐私安全性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值