自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 flume系统架构

目前我们使用的flume主要有三种类型:kafka→kafka、kafka→hdfs、kafka→hbase没有特殊说明每套均部署了5台机器:10.200.1.52、10.200.1.53、10.200.1.54、10.200.1.55、10.200.1.56目前线上使用的版本是1.9.0,为Flume最新版本。1、kafka→kafka目前行为上报数据是上报到两个机房的kafka集群的,...

2020-03-17 17:07:01 300

原创 数仓建设目标-统计口径

背景数仓的主要意义是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。因此建立一个统计口径来衡量数仓的作用显得很关键1、在集群上跑的作业,包括hive、impala、spark、flink等,都会提交到yarn,可以同步yarn上的作业执行情...

2019-09-30 17:16:52 1353

原创 数仓自定义函数

一、介绍Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。下面这个链接比较详细的列出一些内置函数的使用和说明 https://www.cnblogs.com/MOBIN/p/5618747.html#6;但是许多业务场景当当只靠内置函数无法满足,所以大数据团队开发了自定义的函数。二、自定义函数列表返...

2019-09-30 16:28:06 330

原创 数仓开发规范

前言1.1    背景       为了避免底层业务变动对上层需求影响过大,屏蔽底层复杂的业务逻辑,尽可能简单、完整的在接口层呈现业务数据,建设高内聚松耦合的数据组织,使数据从业务角度可分割,显得尤为重要。从随手记整个集团业务条线出发,形成数据仓库总体概念框架,并对整个系统所需要的功能模块进行划分,明确各模块技术细节,建设一套完整的...

2019-09-30 15:46:22 3956

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除