Hadoop
小鼻祖想吃白萝卜
努力飞啊飞~~~~~~~~~~~~~~~~~~~~~
展开
-
MapReduce学习笔记(2) ——推测执行
来源:《Hadoop权威指南(第2版)》 1. 为什么需要推测执行? MapReduce将作业分解成多个任务并行运行的机制,决定了作业运行的总体时间对运行缓慢的任务比较敏感。为了尽量避免运行缓慢的任务对作业运行时间“托后腿”的情况,需要启动作业的推测执行。 2. 什么是推测执行?当Hadoop检测到一个任务运行比预期慢时,它会启动一个相同的任务进行备份。这就是任务...原创 2018-10-11 10:14:31 · 908 阅读 · 0 评论 -
MapReduce学习笔记(3) ——输入格式
来源:《Hadoop权威指南(第2版)》1. 几个概念输入分片:单个map处理的输入块。记录:每个输入分片划分为若干个记录,每条记录就是一个键/值对,map一个接一个地处理每条记录。...原创 2018-10-15 11:10:40 · 206 阅读 · 0 评论 -
MapReduce学习笔记(4) ——输出格式
来源:《Hadoop权威指南(第2版)》单纯摘抄 1. 文本输出TextOutputFormat为默认的输出格式,把每条记录写为文本行。TextOutputFormat输出的键/值分割符可由mapred.textoutputformat.separator属性设置,默认为制表符。...原创 2018-10-16 10:41:59 · 449 阅读 · 0 评论 -
MapReduce学习笔记(5) ——计数器
来源:《Hadoop权威指南(第2版)》计数器是一种收集作业统计信息的有效手段,用于质量控制或应用级统计,可辅助诊断系统故障。1. 内置计数器Hadoop为每个作业维护若干内置计数器,以描述作业的各项指标。内置计数器包括:Map-Reduce框架:map输入记录、map跳过记录、map输入字节、map输出记录、map输出字节、combine输入记录、combine输出记录、redu...原创 2018-10-17 17:10:15 · 188 阅读 · 0 评论