- 博客(4)
- 收藏
- 关注
原创 azkaban
azkaban概述1、azkaban是什么?azkaban是任务调度的工具2、azkaban使用步骤1、需要创建两个文件[.project文件和.flow文件]2、在.project文件中添加一行内容: azkaban-flow-version: 2.0.flow文件中配置job任务3、将两个文件打成.zip包4、上传azkaban web页面azkaban在两个文件中都是使用的yaml的语法yaml语法规范:1、大小写敏感2、通过缩进表示层次关系3、缩进只能空格,不能用tab4
2020-09-29 17:00:44 311
原创 Flume整理
1、Flume概述1、flume是什么? flume是海量日志采集、聚集、传输系统2、flume应用场景? 用于离线的日志采集3、flume基础架构 Agent: flume的任务进程 Source: 定义数据从哪里采集 Channel: 缓冲区[source采集数据之后会放入channel,sink从channel中拉取数据] flume自带两种channel: memory channel、file channel memory channel与file channel
2020-09-24 21:31:41 87
原创 hive之导入导出数据
一 导入数据注意 —— 使用本地模式运行MR : set hive.exec.mode.local.auto=true;1.方式一 :load data [local] inpath ‘数据的path’ [overwrite]into table 表名 [partition (partcol1=val1,…)];#[local] :如果加上该字段表示从本地导入数据,如果不加表示从hdfs上导入数据#[overwrite] :如果加上该字段那么会将原表中的数据覆盖掉,如果不加则将该内容追加到表中
2020-09-18 18:02:08 103
原创 hive之表管理
一 创建表:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name #[EXTERNAL] :创建一张外部表,如果不加创建的就是内部表(管理表)[(col_name data_type [COMMENT col_comment], ...)] #字段名 字段类型 #comment : 字段的描述信息[COMMENT table_comment] #comment : 表的描述信息[PARTITIONED BY (col_name data_
2020-09-18 17:53:44 169
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人