通用
zs_bigdata
自在极意功完全体
展开
-
Streamx安装部署(1.2.2)
一. 介绍StreamX, 项目的初衷是 —— 让 Flink 开发更简单, 使用StreamX开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamX 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供scala和java两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案二. 快速开始2.1 构建StreamX(需要jdk和mave原创 2022-04-02 11:26:49 · 3345 阅读 · 1 评论 -
Flink on yarn log/userlogs里面的日志会自动删除
我发现任务失败后,到处找不到这个目录原本存在的taskmanager.err .log .out相关的日志了,不知道跑到哪里去了.我的hadoop3.14,flink1.12.1,有知道的小伙伴吗,求解原创 2021-04-02 09:59:06 · 1177 阅读 · 3 评论 -
Flink踩坑之DEBUG日志配置与Sink到Mysql
Flink日志配置log4j,debug需要落盘的话,代码中配置没用,需要在flink/conf/log4j.properties进行修改代码中使用;Logger logger = LoggerFactory.getLogger(XXXXX.class);logger.debug("This message contains {} placeholders. {}", "origin", JSON.toJSONString(xxxx));自用如下:## Unless required b原创 2021-03-07 16:54:43 · 1828 阅读 · 0 评论 -
azkaban
azkaban概述1、azkaban是什么?azkaban是任务调度的工具2、azkaban使用步骤1、需要创建两个文件[.project文件和.flow文件]2、在.project文件中添加一行内容: azkaban-flow-version: 2.0.flow文件中配置job任务3、将两个文件打成.zip包4、上传azkaban web页面azkaban在两个文件中都是使用的yaml的语法yaml语法规范:1、大小写敏感2、通过缩进表示层次关系3、缩进只能空格,不能用tab4原创 2020-09-29 17:00:44 · 310 阅读 · 0 评论 -
Flume整理
1、Flume概述1、flume是什么? flume是海量日志采集、聚集、传输系统2、flume应用场景? 用于离线的日志采集3、flume基础架构 Agent: flume的任务进程 Source: 定义数据从哪里采集 Channel: 缓冲区[source采集数据之后会放入channel,sink从channel中拉取数据] flume自带两种channel: memory channel、file channel memory channel与file channel原创 2020-09-24 21:31:41 · 87 阅读 · 0 评论 -
hive之导入导出数据
一 导入数据注意 —— 使用本地模式运行MR : set hive.exec.mode.local.auto=true;1.方式一 :load data [local] inpath ‘数据的path’ [overwrite]into table 表名 [partition (partcol1=val1,…)];#[local] :如果加上该字段表示从本地导入数据,如果不加表示从hdfs上导入数据#[overwrite] :如果加上该字段那么会将原表中的数据覆盖掉,如果不加则将该内容追加到表中原创 2020-09-18 18:02:08 · 103 阅读 · 0 评论 -
hive之表管理
一 创建表:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name #[EXTERNAL] :创建一张外部表,如果不加创建的就是内部表(管理表)[(col_name data_type [COMMENT col_comment], ...)] #字段名 字段类型 #comment : 字段的描述信息[COMMENT table_comment] #comment : 表的描述信息[PARTITIONED BY (col_name data_原创 2020-09-18 17:53:44 · 169 阅读 · 0 评论