hue的demo
点击调整到hue的demo。直接登录查看。
HDFS文件浏览器
HUE可以很方便的浏览HDFS中的目录和文件,并且进行文件和目录的创建、复制、删除、下载以及修改权限等操作。
HDFS实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。但,用户身份机制对HDFS本身来说只是外部特性。HDFS并不提供创建用户身份、创建组或处理用户凭证等功能。 使用HUE访问HDFS时,HDFS简单的将HUE上的用户名和组的名称进行权限的校验。
在Live Demo中,点击”文件浏览器”, 进入HDFS的家目录:
Oozie —任务调度框架
Sqoop —数据转换工具
Flume —文件收集库框架
Hue —大数据WEB工具
Oozie Workflow编辑
HUE也提供了很好的Oozie的集成,能够在HUE上创建和编辑Bundles, Coordinator, Workflow. Oozie的介绍可以去官网查看。下图为在HUE上创建一个新的workflow,在该界面上,可以直接拖动不同的组件,变成DAG中的节点,并且设置各个action的流转逻辑。
Oozie是一个用于管理Apache Hadoop作业的工作流调度程序系统。
Oozie Workflow job是由多个Action组成的有向无环图(DAG)。
Oozie Coordinator job是根据时间(频率)和数据可用性触发的可重复执行的Oozie Workflow job(简单讲就是根据时间或数据条件,规划workflow的执行。调度器)。
该框架(如图 所示)使用 Oozie 协调器促进了相互依赖的重复工作之间的协调,您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle 系统提交或维护一组协调应用程序。
从图中不难看出,Oozie主要有三大功能模块构成:
- workflow(工作流):定义job任务执行。
- Coordinator:定时触发workflow,周期性执行workflow
- Bundle Job:绑定多个coordinator,一起提交或触发所有coordinator
Oozie工作流
- Oozie工作流定义,同JBoss jBPM提供的jPDL一样,也提供了类似的流程定义语言hPDL,通过XML文件格式来实现流程的定义。对于工作流系统,一般都会有很多不同功能的节点,比如分支、并发、汇合等等。
- Oozie定义了控制流节点(Control Flow Nodes)和动作节点(Action Nodes),其中控制流节点定义了流程的开始和结束,以及控制流程的执行路径(Execution Path),如decision、fork、join等;而动作节点包括Hadoop map-reduce、Hadoop文件系统、Pig、SSH、HTTP、eMail和Oozie子流程。
- oozie本质就是一个作业协调工具(底层原理是通过将xml语言转换成mapreduce程序来做,但只是在集中map端做处理,避免shuffle的过程。)
执行workflow之前首先要进行相关配置:
- job.properties 定义job相关属性以及参数
- workflow.xml 定义控制流和动作节点
- lib 存放job任务运行的相关资料文件[jar]
特别注意:
Oozie的工作流必须是一个有向无环图,实际上Oozie就相当于Hadoop的一个客户端,当用户需要执行多个关联的MR任务时,只需要将MR执行顺序写入workflow.xml,然后使用Oozie提交本次任务,Oozie会托管此任务流。
----------------------------------------------------------------------------------------------------------------------------------------------------------------