2020年09月_zs_bigdata

09月

原创 azkaban

azkaban概述1、azkaban是什么?azkaban是任务调度的工具2、azkaban使用步骤1、需要创建两个文件[.project文件和.flow文件]2、在.project文件中添加一行内容: azkaban-flow-version: 2.0.flow文件中配置job任务3、将两个文件打成.zip包4、上传azkaban web页面azkaban在两个文件中都是使用的yaml的语法yaml语法规范：1、大小写敏感2、通过缩进表示层次关系3、缩进只能空格，不能用tab4

2020-09-29 17:00:44 311

原创 Flume整理

1、Flume概述1、flume是什么？ flume是海量日志采集、聚集、传输系统2、flume应用场景？用于离线的日志采集3、flume基础架构 Agent: flume的任务进程 Source: 定义数据从哪里采集 Channel: 缓冲区[source采集数据之后会放入channel，sink从channel中拉取数据] flume自带两种channel: memory channel、file channel memory channel与file channel

2020-09-24 21:31:41 87

原创 hive之导入导出数据

一导入数据注意 —— 使用本地模式运行MR : set hive.exec.mode.local.auto=true;1.方式一：load data [local] inpath ‘数据的path’ [overwrite]into table 表名 [partition (partcol1=val1,…)];#[local] ：如果加上该字段表示从本地导入数据，如果不加表示从hdfs上导入数据#[overwrite] ：如果加上该字段那么会将原表中的数据覆盖掉，如果不加则将该内容追加到表中

2020-09-18 18:02:08 103

原创 hive之表管理

一创建表：CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name #[EXTERNAL] ：创建一张外部表，如果不加创建的就是内部表（管理表）[(col_name data_type [COMMENT col_comment], ...)] #字段名字段类型 #comment : 字段的描述信息[COMMENT table_comment] #comment : 表的描述信息[PARTITIONED BY (col_name data_

2020-09-18 17:53:44 169

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人