- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 Hive on oozie以及action间参数传递
背景: 简单介绍下 hive action的使用,以及action间是如何进行参数传递的,这也是进行多job调度必备的操作~集群环境:CDH 5.13.0 ,其中oozie版本:4.1.0,hive版本:1.1.0一、Hue配置 Hive actionhue上创建hive任务必须添加两个配置项:script 和 hive xml 其中: script 指的是hive ...
2018-08-30 00:08:53 2559 1
原创 oozie时区问题 (CDH环境)
背景: 配置oozie的 coordinator job时必然会遇到时区问题,在此记录下解决方案~集群环境:CDH 5.13.0 ,其中oozie版本:4.1.0注:以下四步最好都修改一、Hue中配置由于我们都是通过hue对oozie进行配置,所以首先保证hue中 time_zone为 Asia/Shanghai 二、oozie-web控制台配置我们可以在o...
2018-08-29 00:07:26 2678
原创 oozie调度sqoop踩坑之路(hue配置)
背景: 通过oozie来调度管理sqoop数据抽取流程,一般有两种方法:一是直接使用oozie的sqoop-action,二是将sqoop语句写在shell脚本中,通过shell-action来调度。经过测试,sqoop-action实在是坑多,故采用坑相对较少的shell-action~集群环境:CDH 5.13.0 ,其中oozie版本:4.1.0,sqoop版本:1.4.6...
2018-08-27 23:36:52 15201 12
原创 oozie初步使用之执行MR任务(非hue配置)
背景: 此处介绍oozie简单执行一个MR任务的基本流程,采用的是官网的Example进行测试,job.properties文件是自己手动配置的,jar包 和 workflow.xml 用Example自带的配置!由于自己配置稍微有些麻烦,后面的介绍我会基于 Hue进行可视化配置~oozie server version:4.1.0 - CDH5.13.0操作流程在Linux...
2018-08-26 19:05:26 1443
原创 Sqoop从Mysql导出到Hive的几个需要注意的地方
背景: 在此记录下使用 sqoop将数据从mysql导出到 hive过程中需要注意的几个地方,包括 NULL值处理、增量导入、parquet格式的日期类型注:这种数据传输工具其实没必要深究所有用法,用到哪块去研究下就行了Sqoop版本:1.4.6 - CDH5.13.0一、NULL处理1. 观察测试先看执行语句: sqoop import --connect j...
2018-08-25 22:10:48 5482
原创 大数据调度工具oozie详细介绍
背景: 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择使用oozie来对工作流进行调度监控。在此介绍一下oozie~注:我的 Oozie server version:[4.1.0 - CDH 5.13.0]一、官网介绍首先看官网首...
2018-08-17 22:55:53 20702
原创 Hive collect、explode函数详解(包括concat、Lateral View)
背景: 最近需要对业务系统数据进行ETL,供机器学习训练,我们需要对数据进行关联聚合,多行或多列数据转换为单行单列这种操作很常见;正好hive提供collect函数可以实现这种格式需求,我们在这整理下用法,顺便扩展一下~一、collect_set 和 collect_list 函数collect_set / collect_list(col)函数只接受基本数据类型,它的主要作用是...
2018-08-08 12:05:41 22003 4
原创 Hive开窗函数总结
背景: 平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多,这个时候就需要使用窗口分析函数了~ 注:hive、oracle提供开窗函数,mysql不提供版本:Hive 1.1.0 + cdh5.13.0一、介绍分析函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而...
2018-08-05 12:56:25 37920 10
数据挖掘 你必须知识的32个经典案例
2017-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人