自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员学习圈

行胜于言、质胜于华

  • 博客(665)
  • 收藏
  • 关注

原创 Flink 学习资料

1.官方文档 https://flink.apache.org/2.优秀博客 3.推荐书籍4.代码示例

2019-07-06 23:37:29 356

原创 Superset 基本介绍

1.Superset基本概念1.1 简介 Apache Superset(孵化)是一个现代化的企业级商业智能Web应用程序。1.2 特点 • 快速创建可交互的、直观形象的数据集合 • 有丰富的可视化方法来分析数据,且具有灵活的扩展能力 • 具有可扩展的、高粒度的安全模型,可以用复杂规则来控制访问权限。目前支持主要的认证提供商:DB、OpenID、LD...

2019-07-06 00:28:51 2391 1

原创 JIRA 使用详解

1.JIRA和Atlassian公司 JIRA是Atlassian公司的产品。Atlassian公司于2002在澳大利亚悉尼成立,提供面向企业业务流程的协同办公产品,并于2015年12月在纳斯达克上市。作为一家SaaS公司,不雇佣一个销售人员,仅通过口碑获客,市值达10亿美金级别(64亿美元-2017年3月13日),这也从另外角度反映出这个产品的独特之处。 Atlassi...

2019-07-05 20:02:16 2361

原创 数据中台VS数据仓库VS数据平台

数据中台和数据仓库、数据平台的关键区别 这是现在数据行业大家经常讨论的问题,到底数据仓库、数据平台和数据中台的区别是什么。1.概括地说,三者的关键区别有以下几方面: ◆数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的主要方式是数据 API; ◆数据仓库是一个相对具体的功能概念,是存储和管理一个或多...

2019-06-27 11:15:16 1376

原创 数据湖的现实与梦想

我们都知道,进行数据分析工作的时候会用到很多的工具,比如说数据湖和数据仓库,不过这两者之间的差异和区别,可能会让人困惑。那么大家知道不知道数据湖和数据仓库的区别是什么呢?下面我们就给大家介绍一下数据湖和数据库的相关知识。 那么什么是数据湖呢?其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据湖的...

2019-06-25 00:01:35 1373

原创 什么是数据湖?和数据仓库有什么区别?

湖听起来很简单:把数据或汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案,那样业务部门就能访问数据,获取新的洞察力。不过,与IT行业的许多技术一样,现实比梦想困难得多。  Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)发明了这个术语,他表示,其中一方面是由于对数据湖应该是什么存在着误解。他从来就没有打算用数据湖来描述从...

2019-06-16 18:00:25 944

原创 数据治理的七把利剑

前言:正所谓:“工欲善其事,必先利其器!”,一套好的数据治理工具,能让企业的数据治理工作事半功倍。数据治理本质是盘点数据资产、治理数据质量,实施数据全生命周期的管理,根据不同的项目特点,会用到不同的技术或工具,一般来说,数据治理产品或工具主要包含以下组件:数据模型管理、元数据管理、数据质量管理、数据标准管理、主数据管理、数据安全管理、数据服务平台。数据治理产品中的七个工具或组件,都各有自己的特点和使命,在企业的数据治理中都有着不同的功能侧重,但是解决问题的目标是一致的——提升数据质量。这让我不由联想到的是

2019-06-16 17:58:45 5917 1

原创 数据治理【数据安全管理】

1、概念 维基百科:“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。 个人理解:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效

2019-06-16 17:01:16 3539

原创 数据治理【数据质量管理】

1.官方资料 https://msdn.microsoft.com/zh-cn/library/ee634396.aspx2.常用DAX函数介绍 https://www.jianshu.com/p/78562efa28fe3.Dax 优秀文章推荐 https://blog.csdn.net/capsicum29/article/details/80...

2019-06-16 16:29:36 2616

原创 数据治理【数据标准管理】

1.概念 数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。2.数据标准管理 数据模型标准,即元数据的标准化。 主数据和参照数据标准。 指标数据标准。

2019-06-16 16:22:40 2816

原创 数据治理【主数据管理】

我们知道主数据项目的建设是一个循序渐进、持续优化的过程,不可一蹴而就。个人理解主数据管理项目从咨询规划到落地实施再到初步见效需要经历四个阶段,简单归结为12个字:“摸家底、建体系、接数据、抓运营”1.摸家底 摸家底需要全面调研和了解企业的数据管理现状,以便做出客观切实的数据管理评估。

2019-06-16 15:58:11 2410

原创 数据治理【元数据管理】

1.认识元数据 元数据(Metadata)是对数据的结构化描述,使得数据更容易理解,查找、管理和使用。简言之就是描述数据的数据。2.元数据的分类 根据数据的性质特点,业内一般将元数据划分为三类:业务元数据、技术元数据和管理元数据。 业务元数据是描述数据的业务含义、业务规则等。通过明确业务元数据让人们更容易理解和使用业务元数据,元数据消除了数据二义性,让人们对数据有一致的认证,避免“各说自话”,进而为数据分析和应用提供支撑。常见的业务元数据包括:业务定义、业务术语、业务规则、业务指

2019-06-16 12:35:24 20327 1

原创 数据治理【框架介绍】

1.什么是数据治理? 维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。 个人理解:所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。数据治理的目的就是通过有效的数据资源控制手段,进行数据的控制,以提升数据质量进而提升数据变现的能力。

2019-06-16 12:32:17 2667 1

原创 数据仓库中的Inmon与Kimball架构之争

对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至有人把Inmon和Kimball之争称之为数据仓库界的“宗教战争”,那么本文就通过对两位提倡的数据仓库体系和市场流行的另一种体系做简单描述和比较,不是为了下定义那个好,那个不好,而是让初学者更明白两位数据仓库鼻祖对数据仓库体系的见解而已。 首先,我们谈Inmon的企业信息化工厂。 2000年5月,...

2019-06-09 01:10:00 337

原创 深入对比数据仓库模式:Kimball vs Inmon

1.概述Kimball和Inmon是两种主流的数据仓库方法论,分别由 Ralph Kimbal大神 和 Bill Inmon大神提出,在实际数据仓库建设中,业界往往会相互借鉴使用两种开发模式。本文将详细介绍 Kimball 和 Inmon 理论在实际数据仓库建设中的应用与对比,通过数据仓库理论武装数据仓库实践。2.什么是Kimball2.1 概念Kimball 模式从流...

2019-06-09 01:00:00 8986 3

原创 建立 Data Vault 模型

本示例源数据库是一个订单销售的普通场景,共有省、市、客户、产品类型、产品、订单、订单明细7个表。ERD如下图所示。使用下面的脚本建立源数据库表:CREATE TABLE province ( province_id varchar(2) NOT NULL COMMENT '省份编码', province_name varchar(20) DEFAULT NULL COM...

2019-06-08 13:58:00 689

原创 初见 Data Vault 模型

最近因为工作需要接触了Data Vault这个概念,所以又开始了新一轮的学习,作为一个java开发者,平时主要和代码打交道,实现的是业务逻辑,初探数据的故事,感觉整个整个世界都是新的。作为一个懵逼小白,第一件事当然是了解什么是Data Vault,还是从5W1H出发来看。What Data Vault模型是Dan Linstedt在20世纪90年代提出的,主要在对自然界中发现...

2019-06-08 13:38:00 1826 5

原创 Date Vault 概念

Data Vault(DV)模型是用于企业级的数据仓库建模。由Dan Linstedt在20世纪90年代提出(http://www.danlinstedt.com)。在最近几年,Data Vault模型获得了很多关注,并在BI社区里拥有了一批追随者。Dan Linstedt将Data Vault模型定义如下:Data Vault是面向细节的,可追踪历史的,它是一组有...

2019-06-08 13:28:00 1897

原创 数据仓库之分层理论

ETL构建企业级数据仓库五步法在数据仓库构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了从数据清洗,整合,到转换,加载等的各个过程,如果说数据仓库是一座大厦,那 么ETL就是大厦的根基,ETL抽取整合数据的好坏直接影响到最终的结果展现。所以ETL在整个数据仓库项目中起着十分关键的作用,必须摆到十分重要的位 置。一、什么是ETLETL是数据抽取(Ext...

2019-06-08 13:18:00 892

原创 DW2.0

DW2.0,即数据仓库之父Bill Inmon在其著作《DW2.0:The Architecture for the Next Generation of Data Warehouse》中给出了DW2.0的明确的定义:下一代数据仓库构架。 之所以称之为DW2.0,是相对于第一代数据仓库而言的。可以把数据仓库概念提出到DW2.0概念提出之间的数据仓库称之为第一代数据仓库。由于Bi...

2019-06-08 13:15:17 354

原创 数据仓库之人物篇

1.数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 [1]2.发展历程 数据仓库是决策支持系统(dss)和联机分析应用数据源...

2019-06-08 13:05:55 253

原创 数据仓库之维度建模剖析

数据仓库学习之路: 链接:https://pan.baidu.com/s/14xykVSNgKA0QkDoaULUVsg密码:oe0q

2019-06-08 11:36:29 477

原创 数据仓库之数据同步策略

1. 数据仓库生命周期工具箱(第二版) 告诉你数据仓库从0到1都有什么流程,更多的是管理流程,每个阶段有什么样的文档。2. 数据仓库工具箱-维度建模权威指南(第三版) 告诉你维度建模的表该如何设计,有坑了怎么解决。 3.数据仓库ETL工具箱 告诉你模型建好了,ETL到底如何实施,ETL到底怎么设计,才能把数...

2019-06-08 11:22:36 3151 2

原创 《数据结构与算法之美》学习指导手册

具体内容,请看:https://time.geekbang.org/column/article/91541

2019-05-31 00:08:11 283

原创 在实际开发中,如何权衡选择使用哪种数据结构和算法?

具体内容,请看:https://time.geekbang.org/column/article/81997

2019-05-30 23:51:36 311

原创 练习:贪心、分治、回溯和动态规划

练习:贪心、分治、回溯和动态规划

2019-05-30 23:28:15 203

原创 练习:图

练习:图

2019-05-30 22:08:40 120

原创 练习:二叉树和堆

练习:二叉树和堆

2019-05-30 10:52:27 216

原创 练习:散列表和字符串

练习:散列表和字符串

2019-05-28 23:59:50 188

原创 练习:排序和二分查找

练习:排序和二分查找

2019-05-28 23:25:09 182

原创 练习:栈、队列和递归

练习:栈、队列和递归

2019-05-28 22:29:35 274

原创 练习:数组和链表

练习:数组和链表

2019-05-28 22:22:15 227

原创 算法实战(五):如何用学过的数据结构和算法实现一个短网址系统?

具体内容,请看:https://time.geekbang.org/column/article/80850

2019-05-28 00:20:20 235

原创 算法实战(四):剖析微服务接口鉴权限流背后的数据结构和算法

具体内容,请看:https://time.geekbang.org/column/article/80388

2019-05-27 23:05:06 209

原创 算法实战(三):剖析高性能队列Disruptor背后的数据结构和算法

具体内容,请看:https://time.geekbang.org/column/article/79871

2019-05-27 22:25:25 271

原创 算法实战(二):剖析搜索引擎背后的经典数据结构和算法

具体内容,请看:https://time.geekbang.org/column/article/79433

2019-05-26 21:55:53 214

原创 算法实战(一):剖析Redis常用数据类型对应的数据结构

具体内容,请看:https://time.geekbang.org/column/article/79159

2019-05-25 22:20:54 217

原创 并行算法:如何利用并行处理提高算法的执行效率?

具体内容,请看:https://time.geekbang.org/column/article/78795

2019-05-25 20:21:21 1230

原创 索引:如何在海量数据中快速查找某个数据?

具体内容,请看:https://time.geekbang.org/column/article/78449

2019-05-25 20:19:41 838

原创 搜索:如何用A*搜索算法实现游戏中的寻路功能?

具体内容,请看:https://time.geekbang.org/column/article/78175

2019-05-25 09:30:00 186

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除