自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive on oozie以及action间参数传递

背景: 简单介绍下 hive action的使用,以及action间是如何进行参数传递的,这也是进行多job调度必备的操作~集群环境:CDH 5.13.0 ,其中oozie版本:4.1.0,hive版本:1.1.0一、Hue配置 Hive actionhue上创建hive任务必须添加两个配置项:script 和 hive xml 其中: script 指的是hive ...

2018-08-30 00:08:53 2542 1

原创 oozie时区问题 (CDH环境)

背景: 配置oozie的 coordinator job时必然会遇到时区问题,在此记录下解决方案~集群环境:CDH 5.13.0 ,其中oozie版本:4.1.0注:以下四步最好都修改一、Hue中配置由于我们都是通过hue对oozie进行配置,所以首先保证hue中 time_zone为 Asia/Shanghai 二、oozie-web控制台配置我们可以在o...

2018-08-29 00:07:26 2637

原创 oozie调度sqoop踩坑之路(hue配置)

背景: 通过oozie来调度管理sqoop数据抽取流程,一般有两种方法:一是直接使用oozie的sqoop-action,二是将sqoop语句写在shell脚本中,通过shell-action来调度。经过测试,sqoop-action实在是坑多,故采用坑相对较少的shell-action~集群环境:CDH 5.13.0 ,其中oozie版本:4.1.0,sqoop版本:1.4.6...

2018-08-27 23:36:52 15129 12

原创 oozie初步使用之执行MR任务(非hue配置)

背景: 此处介绍oozie简单执行一个MR任务的基本流程,采用的是官网的Example进行测试,job.properties文件是自己手动配置的,jar包 和 workflow.xml 用Example自带的配置!由于自己配置稍微有些麻烦,后面的介绍我会基于 Hue进行可视化配置~oozie server version:4.1.0 - CDH5.13.0操作流程在Linux...

2018-08-26 19:05:26 1431

原创 Sqoop从Mysql导出到Hive的几个需要注意的地方

背景: 在此记录下使用 sqoop将数据从mysql导出到 hive过程中需要注意的几个地方,包括 NULL值处理、增量导入、parquet格式的日期类型注:这种数据传输工具其实没必要深究所有用法,用到哪块去研究下就行了Sqoop版本:1.4.6 - CDH5.13.0一、NULL处理1. 观察测试先看执行语句: sqoop import --connect j...

2018-08-25 22:10:48 5459

原创 大数据调度工具oozie详细介绍

背景: 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择使用oozie来对工作流进行调度监控。在此介绍一下oozie~注:我的 Oozie server version:[4.1.0 - CDH 5.13.0]一、官网介绍首先看官网首...

2018-08-17 22:55:53 20460

原创 Hive collect、explode函数详解(包括concat、Lateral View)

背景: 最近需要对业务系统数据进行ETL,供机器学习训练,我们需要对数据进行关联聚合,多行或多列数据转换为单行单列这种操作很常见;正好hive提供collect函数可以实现这种格式需求,我们在这整理下用法,顺便扩展一下~一、collect_set 和 collect_list 函数collect_set / collect_list(col)函数只接受基本数据类型,它的主要作用是...

2018-08-08 12:05:41 21529 4

原创 Hive开窗函数总结

背景: 平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多,这个时候就需要使用窗口分析函数了~ 注:hive、oracle提供开窗函数,mysql不提供版本:Hive 1.1.0 + cdh5.13.0一、介绍分析函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而...

2018-08-05 12:56:25 37773 10

数据挖掘 你必须知识的32个经典案例

本书是为广大数据分析师量身定制的入门读物,它旨在帮助读者站在大数据时代的制高点。数据分析处于统计学、计算机信息科学、运筹学、数据库等多个领域的交叉地带,大数据时代的到来大大丰富了数据分析的内涵,数据分析师的职责与以往相比发生了巨大的改变。 本书全面介绍了经典数据分析、模式识别、机器学习、深度学习、数据挖掘、商务智能等多个领域的数据分析算法,将大数据时代的数据分析热点技术一网打尽。本书为每个数据分析算法都搭配了一个经典案例,并按照由易到难的原则构建知识框架,充分照顾了不同水平读者的阅读习惯。 通过阅读本书,读者将对大数据时代下的数据分析有一个全面的认识。无论是入门级的数据分析员还是有一定基础的数据分析师,都能通过本书完善、加深对数据分析的认识。

2017-10-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除