自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据包工头的博客

数据分析,大数据,数据仓库,数据研发

  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据仓库-Hive SQL处理连续相邻数据

数据仓库-Hive SQL处理连续相邻数据(连续响相邻数据个数是未知的)例如如下场景计算库存连续缺货时长问题。统计连续节假日问题。下面以统计连续节日问题,进行探讨先来DISS下,这个问题,也是之前在招聘面试中,涉及的最后一道压轴题,99%的人没有正确或者完整回答上来,下面以这个为例子,进行探讨。 如下,从连续日期的是否是否促销的基础数据中,标记出促销的开始日期和结束日期;这个问题发展演变下,和从库存变动记录中,计算连续缺货时长的统计分析,接下大家可以先想下如何解题。 问题解决思

2021-05-28 16:18:55 736

原创 数据仓库-你不知道的HSQL?

你不知道的HSQL?创建demo数据create table dwd.dwd_order_item ( order_id bigint , goods_id bigint , bctg bigint , bctg_en string, amt double, qty double, load_etl_time timestamp comment 'ETL LOAD TIME') comment ''partitioned by (dt stri

2021-05-18 17:24:26 157

原创 大数据实践之路-研发工具-ETL任务依赖问题解决方案

ETL任务依赖问题解决方案背景现有的任务调度工具目前仅仅支持在调度系统内部的依赖,但是无法提供ETL任务解耦的功能,对于数仓主题域建设过程中,难免出现,任务依赖耦合度较高的情况存在,所以博主在这个痛点基础上,设计了任务依赖的功能。目的1、实现ETL任务的解耦, 降低任务之间的依赖,减轻调度系统依赖的复杂度2、为对外服务提供上有数据表任务状态情况,下游可以根据状态判断是否继续执行下游任务,提高数据运维的稳定性和复杂度。CheckTableAPI 功能描述1.获取ETL表状态数据: GE

2021-05-18 13:23:34 606 1

原创 大数据实践之路-研发工具-clickhouse客户端类似hive客户端工具实现

客户端工具: clickhouse-client-etlclickhouse-client-etl -h ************************************************* 帮 助 文 档 *************************************************** clickhouse-client-etl 参数说明 -f SQL文件路径 -q 查询SQL,当有此参数时,-f 参数失效 --chvar

2021-05-18 10:35:31 386

原创 大数据实战之路-实时数仓-实时数仓架构

# 流批一体架构## 技术栈### 开发语言(三者都可以)* Java * Scala* Python### 技术选型* K8s* Debezium* Kafka* Flink (Hdfs, RockDB)* Clickhouse* Doris* ElasticSearch* MySQL* DataX (离线抽取, 主要用于历史,历史数据初始化)### 批流一体架构![批流一体架构](uploads/da3f63914f1ad8f532ae032a5209e04f/批流一.

2021-05-18 09:05:42 795

原创 大数据实战之路-研发工具-ETL代码自动发布

数据仓库的ETL代码管理与自动发布目录架构设计ETL代码发布流程图ETL代码发布流程图自动部署架构设计设计与实现1.参考链接:1. Jenkins安装部署2.

2021-05-18 09:03:24 236

原创 大数据实战之路-数据仓库-项目运维交接文档

项目向运维的交接必须满足以下条件,目的是: 1)要求开发阶段文档规范和代码效率等能够完整且质量高 2)以运维的角度倒推我们已开发项目的高质量交付 3)以后所有交付的项目要运维先做验收,不符合者迭代修改一、项目交接资料 1.1项目简介(PRD、ETL设计文档、数据字典、测试文档、模型原型图、数据的流向图) 注: a.文件命名须以 项目名称+...

2021-03-25 11:01:01 834

原创 大数据实战之路-实时数仓-基于SparkStreaming的流维关联实现

目录以电商的交易订单场景为例业务实现的部分功能功能设计任务提交以电商的交易订单场景为例描述: 一般的交易订单可能会涉及到多个表的,例如交易订单头信息,交易订单行明细,配送订单等等, 下面以订单头信息和订单行明细两个数据流为例,完成双流join的功能。流数据介绍:交易订单头包含: 订单号, 父订单号, 配送单号, 渠道号, 下单日期, 订单状态, 下单门店, 配送门店, 送货方式, 订单类型, 运费, 订单满减等等 交易订单行明细包括: 交易订单行明细ID, 订单号, 订单行

2021-03-23 11:31:02 609

原创 大数据实践之路-数据仓库-hive批量删除/增加分区

注意: 增加日期变量 p_date ,为了防止start_date在while循环过程中,发生变化,变为和end_date一样的值。#! /bin/bashstart_date=${1:-`date -d "-32 day" "+%Y-%m-%d"`}end_date=${2:-`date -d "-1 day" "+%Y-%m-%d"`}table_name="vn0c43l.mid_dim_hyper_shop_div_dept_day_v2" # hive 批量删除分区sql_dp=

2021-01-14 09:53:34 708 1

原创 大数据实践之路-数据仓库-ETL设计文档

在实际的数据仓库开发过程中,开发人员的能力水平参差不齐,那么为了防止开发返工,从架构设计上,我就要求做到开发之前就要做好方案设计的工作,所谓众人拾柴火焰高。根据多年的实战经验,做好ETL设计开发的评审工作,极大的可以提升团队的研发效率,以及避免很多低级问题以及设计上高难度的问题。 以下模板是实践多年的总结,核心部分是ETL设计部分,这也是锻炼研发人员框架思维的重要部分,欢迎一起探讨。《文档版本》 更新日期 更新者 版本号...

2021-01-12 10:26:47 937 4

原创 大数据实践之路-数据仓库-数据开发自测模板

在实际的数据开发过程中,数据测试是我们的痛点,如果没有良好的标准与测试方法,那么消耗掉的不只是我们的数据开发的成本,甚至更严重的是数据质量问题,经过本人多年的实践经验,严格按着一下模板去测试,可以解决我们再开发上95%的问题。特别是要注意下,关于指标可累加与不可累加问题。1、概览目的:可以清楚的知道哪些表验证已经OK,哪些还存在问题。字段信息:序号 表名 描述 是否通过 重要程度 备注             2、数据.

2021-01-12 10:05:38 708

原创 大数据实践之路-研发工具-datax日志监控shell脚本实现

data日志监控shell脚本实现通过shell的编写一个linux的客户端工具,实现datax的日志信息采集到关系数据库的mysql中。如果你正在使用datax,有需要对同步数据结果进行监控的话,那以下代码仅供参。#!/bin/bash# 生命不可变变量declare -r CURR_DIR=$(cd `dirname $0`; pwd) # 任务启动时间job_start=`date "+%Y-%m-%d %H:%M:%S"` # ************************

2021-01-12 09:49:08 1179

原创 SpagoBI Ehcarts整合

开源BI系统使用图表还不错的算是highcharts了,但是要是商用的话,还是要拿到授权才行,也就是收费项目。最近比较流行百度的一个开源项目Echarts,初识Echarts 就被其漂亮的,丰富的图表功能所吸引,于是在SpagoBI中为这个图表框架开发了一个模块,下面以折线图为例为大家展示这个丰富漂亮的图表库首先 浏览器输入 ;http://localhost:8080/SpagoBI

2015-10-23 02:15:04 2403 4

数据库系统教程 施伯乐

这是很不错的 资源 分享一下 很费劲找的喔

2011-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除