介绍
Apache Tez 项目提供构建一个负责有向无环图处理任务的应用框架, 这允许一个复杂的定向非循环,图形处理数据的任务。目前,构建在 Apache Hadoop YARN 之上。
Tez 有 2个主要主题:
给终端用户增强以下功能
数据流定义展示APIs(Expressive dataflow definition APIs)
灵活的输入处理输出运行模式(Flexible Input-Processor-Output runtime model)
数据类型无关(Data type agnostic)
极易部署(Simplifying deployment)
执行性能(Execution Performance)
提升Map Reduce 性能(Performance gains over Map Reduce)
优化资源管理(Optimal resource management)
运行时计划重新配置(Plan reconfiguration at runtime)
动态物理数据流决策(Dynamic physical data flow decisions)
可以像Apache Hive 和 Apache Pig 项目那样运行任务的一个复杂的 DAG 任务集,Tez 可以用来处理数据,预先分配多个MR Jobs,现在只在一个单一的 Tez job 如下图所示.
译者注:目前 apache Tez 发展到了 apache Tez 0.8.1-alpha 版本了。本人没有使用过。希望后期能够有机会。