自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 数据治理(一)

数据中台,数据治理必不可少

2022-06-11 09:47:13 249 1

原创 数据中台概念(一)

1.数据仓库 启蒙时代 BI诞生于上世纪90年代,数据转化为知识,帮助企业经营分析决策。 零售行业的门店管理,如果使单个门店利润最大化 分析每个商品的销售数据和库存信息 为每个商品制定合理的销售采购计划,滞销降价,畅销预测,提前采购 大数据量的范围查询 数仓之父=》比尔 恩门=》数仓是在企业管理决策中面向主题、集成、与时间相关,不可修改的数据集合 订单表和会员表

2022-05-24 10:16:01 964

原创 数仓建模篇(三)

维度建模技术概述1.基本概念 收集业务需求与数据实现 理解业务需求+作为基础的源数据的实际情况 与业务代表交流发现需求 理解关键性能指标、竞争性商业问题、决策制定过程、支持分析需求的目标 源数据专家沟通,构建高层次数据分析访问数据可行性 协作维度建模研讨 维度模型应该由主题专家与企业数据管理代表合作设计而成 工作由数据建模者负责 模型应该通过与业务代表开展一系列高级别交互讨论获得

2022-04-29 18:49:57 346

原创 数仓建模篇(二)

1.星型模型与OLAP多维数据库 在关系型库管理系统中实现的维度模型称为星型模型,因为其结构类似星型结构 在多维数据库环境中实现的维度模型通常称为联机分析处理 2.用于度量的事实表 维度模型中的事实表存储组织机构业务过程事件的性能度量结果 尽量将来与同一个业务过程的底层度量结果存储于一个维度模型中 允许多个组织的业务用户访问同一个单一的集中式数据仓库 事实表的每一行对应一个度量事件 注:物理世界的每一个度量事件与.

2022-04-27 09:32:28 1839

原创 Hive优化及解析

1.explain 一般用于查看表的具体stage流程,根据流程判断自我推测2.explain dependency 快速排查分区 具体场景 快速排出因为读取不到相应分区的数据而导致任务数据输出异常 理清表的输入,帮助理解程序的运行,特别是有助于了理解子查询,多表连接的依赖输入(on,where) 不同写法,最后的实现也不会一样3.explain authorization 了解数据源、数据输出以及访问用户和操作4...

2022-04-23 17:01:44 1745

原创 数据建模规范

一、建模设计参考规范1、建模原则 高内聚和低耦合 核心模型与扩展模型分离 公共处理逻辑下沉及单一 成本与性能平衡 数据可回滚 一致性 命名清晰、可理解表命名需清晰、一致,表名需易于使用方理解 2、建模评价指标 完善度 汇总数据能直接满足多少查询需求 跨层引用比列(业务方直接从dwd、dws、ads层直接拿到想要的数据) 快速相应业务方的需求 复用度 模型被读取并

2022-04-19 15:16:59 1861

原创 数仓概览导向

启蒙时代 BI诞生于上世纪90年代,数据转化为知识,帮助企业经营分析决策。 零售行业的门店管理,如果使单个门店利润最大化 分析每个商品的销售数据和库存信息 为每个商品制定合理的销售采购计划,滞销降价,畅销预测,提前采购 大数据量的范围查询 数仓之父=》比尔 恩门=》数仓是在企业管理决策中面向主题、集成、与时间相关,不可修改的数据集合 订单表和会员表 ..

2022-04-15 15:18:19 73

原创 快速入门数据仓库

总结: 概念 是一个用于存储、分析、报告的数据系统 构建面向分析的集成化环境,分析结果为企业提供决策 数仓本身不生产数据,数据来源于外部系统 数仓本身也不消费数据,其结果开放给各个外部应用使用 所以称为仓库而不是工程 为什么会有数仓? 为了分析数据而来,分析结果给企业决策提供支撑 操作性记录的保存 公司下面有多个BU,业务线等等,都有各自的业务系统,记录销售、经营、

2022-04-09 17:09:44 912

原创 深入浅出Spark(一)

1.map与mapPartitons区别(transformation操作) map 针对RDD中的每个元素进行转换,粒度更细 mapPartitions 针对分区整体数据进行转换,粒度更粗 2.foreach与foreachPartitions区别(action操作) foreach 针对RDD中每个元素就行输出,粒度更细 foreachPartitions 针对分区整体进行输出,粒度更粗 3.repa

2022-04-08 14:10:20 109

原创 阿里大数据之路问道(一)

数据同步数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景。主数据库与备份数据库之间的备份,主系统与子系统之间的数据更新,同类型不同集群数据库之间的数据同步。还有不同地域、不同数据库类型之间的数据传输交换,比如分布式业务系统域数据仓库系统之间的数据同步。数据同步的基础数据类型多种多样,结构化数据、半结构化数据、非结构化数据。同步方式可以分为三种:直连同步、数据文件同步和数据库日志解析同步 直连同步 ODBC\JDBC 数据文件同步

2022-04-07 11:38:42 2702

原创 数仓建模篇(一)

数据仓库数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义一直被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。数据架构的原则1、底层业务

2022-04-06 14:33:50 2597

原创 Flink的前身今世

1.2008年也就是北京奥运会的同一年,诞生于柏林理工大学,原名StratoSphere,平流层?老外认为是顶层的一套计算框架吧2.2014年4月16号Flink称为Apache顶级项目,那就更个名吧,更名为flink。此时版本0.63.2014年11月04号Flink0.7.0发布,介绍了一个重要的特性,Streaming API,注入流式的力量4.2016年03月08号发布Flink1.0.0,支持S...

2022-03-24 11:54:05 2394

原创 Docker01下载安装及删除

#1. 卸载旧的docker版本sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ docker-l...

2021-06-22 15:07:39 87

原创 深入ehcache(一)

我们先思考一下,什么是ehcache?ehcache能有否给我们带来方便,我们经常在哪里会用到它?当我们携带着这些问题之后,接下来,在好奇心的驱使下,我们可以完美进入学习ehcache的步调当中。 ehcache的优点: 1、简单、快速 ...

2019-04-28 11:17:48 179

原创 每周一更

以后每周会发布一遍技术微博,欢迎大家一起阅读,一起学习!

2019-04-28 09:57:30 97

原创 关于线程中synchronized的用法之一锁引用

锁方法会相对耗费较多时间,所以锁引用对象 会提高效率

2017-06-07 19:26:25 237

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除