自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

似梦似意境

既然选择远方,便只顾风雨兼程

  • 博客(667)
  • 资源 (24)
  • 论坛 (2)
  • 问答 (1)
  • 收藏
  • 关注

转载 阿里数据中台建模

阿里中台的概念,可以说是近些年来的颇为火爆的概念。从十余年前的阿里在内部完成这一过程,并提出了“中台”概念;到后面中台概念逐步被外部接受并在2019年爆火兴起。数据中台爆火背后,既有传统企业转型焦虑的市场东风,又有阿里中台战略示范效应的推波助澜。下图为阿里中台架构(图片来自网络),其内置“大中台、小前台”的战略,其中包含了业务中台和数据中台的双中台配置。 从本质上来说,中台概念更多是一种方法论。它来告诉用户如何构建数据化服务体系,包括从数据集成、数据建模、数据开发、数据共享到数据质量、...

2020-10-21 12:10:36 1693

转载 阿里数据中台演进四个阶段

2009年,阿里云开启了中国的云时代。十年市场教育,中国的公有云市场也已经从无到有,迈过了300亿元大关,预计到2021年更是能达到900亿元的规模。「数据中台」已经从一个技术词汇,慢慢转变成为企业界的共识:如果想要在信息商业中拥有一席之地,就必须要借助云计算和数据的力量,完成企业的数字化转型。只是,数据到底在转型中扮演什么样的角色,要如何利用好数据,数据上云后如何支持业务,企业需要哪些核心能力?这些问题,对于大多数的非技术业者而言,仍然是知其然不知其所以然。一般而言,「数据上云」更多强调的

2020-10-21 10:50:23 10066

转载 终于有人把中台说清楚了

百度指数搜索“中台”,可以发现,中台一词前几年几乎都没有搜索,反倒是今年5月21号开始蹭蹭往上涨! 仔细搜索了一下原来5月21号腾讯召开了全球数字生态大会,会议上腾讯高级副总裁汤道生提出“开放中台能力,助力产业升级”。汤道生介绍,腾讯技术委员会正在推动“开源协同”和“自研上云”,通过技术整合实现高效的能力交付。同时,基于在即时通讯、社交、游戏等优势领域中的技术积累,腾讯将进一步开放业界领先的包括用户中台、内容中台、应用中台等在内的数据中台,以及包括通信中台、AI中台、安全中台等在内的技...

2020-10-20 11:01:23 316

原创 数据湖(Data Lake)的现实与梦想

数据湖正在成为一种越来越流行的大数据解决方案,而数据湖这个词已经被大数据供应商赋予了太多不同的含义,如果有什么工作是传统数据仓库做不了的,那就把它塞进数据湖,以至于数据湖已经变成了一个定义模糊的概念。数据湖是不是就是传说中的银弹,可以解决所有数据仓库不能解决的问题呢。本文将讲述,关于数据湖的定义,与数据仓库的区别,以及现实中的数据湖解决方案和未来会怎样发展。1.数据湖是什么 维基百科对数据湖的定义是,数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形...

2020-10-19 19:52:00 522 1

原创 数据仓库之主数据

1.主数据的定义 主数据(MD-Master Data)指系统内或系统之间的共享数据。 主数据与记录业务活动,如交易数据等波动较大的数据相比,主数据(也称基准数据)变化缓慢。在本系统(设备档案管理系统)中,主数据就是设备“理想模型”的档案信息数据集合。2.主数据的特征 主数据是具有共享性的基础数据,可以在企业内跨越各个业务部门被重复使用的,因此通常长期存在且应用于多个系统。由于主数据是企业基准数据,数据来源单一、准确、权威,具有较高的业务价值,因此是企业执行业务操作和决策分析的...

2020-10-18 17:52:31 295

原创 数据仓库主题域如何划分

1.关于主题: 数据仓库中的数据是面向主题组织的,主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。如财务分析就是一个分析领域,因此这个数据仓库应用的主题就为“财务分析”。2.关于主题域: 主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域(也说是对某个主题进行分析后确定的主题的边界。)3.关于主题域的划分: 主题域的确定必须由最终用户和数据仓库...

2020-10-17 21:59:54 3359 1

原创 数据仓库指标分类

一般情况下可以分为 基础指标(原子指标)、复合指标、派生(衍生)指标 基础指标:指表达业务实体原子量化属性的且不可再分的概念集合,如交易笔数、交易金额、交易用户数等。 复合指标:指建立在基础指标之上,通过一定运算规则形成的计算指标集合,如平均用户交易额、资产负债率等。 派生指标:指基础指标或复合指标与维度成员、统计属性、管理属性等相结合产生的指标,如交易金额的完成值、计划值,累计值、同比、环比、占比等。 ...

2020-10-17 13:57:46 711

原创 建立 Data Vault 模型

本示例源数据库是一个订单销售的普通场景,共有省、市、客户、产品类型、产品、订单、订单明细7个表。ERD如下图所示。使用下面的脚本建立源数据库表:CREATE TABLE province ( province_id varchar(2) NOT NULL COMMENT '省份编码', province_name varchar(20) DEFAULT NULL COMMENT '省份名称', PRIMARY KEY (province_id)) ; CREATE TA.

2020-10-16 09:19:32 109

原创 初见Data Vault 模型

本示例源数据库是一个订单销售的普通场景,共有省、市、客户、产品类型、产品、订单、订单明细7个表。ERD如下图所示。使用下面的脚本建立源数据库表:CREATE TABLE province ( province_id varchar(2) NOT NULL COMMENT '省份编码', province_name varchar(20) DEFAULT NULL COMMENT '省份名称', PRIMARY KEY (province_id)) ; CREATE TA.

2020-10-15 20:38:57 172

原创 数据仓库之 Date Vault 建模概述

最近因为工作需要接触了Data Vault这个概念,所以又开始了新一轮的学习,作为一个java开发者,平时主要和代码打交道,实现的是业务逻辑,初探数据的故事,感觉整个整个世界都是新的。作为一个懵逼小白,第一件事当然是了解什么是Data Vault,还是从5W1H出发来看。What Data Vault模型是Dan Linstedt在20世纪90年代提出的,主要在对自然界中发现的复杂网络建模。 根据维基百科,Data Vault定义如下: Data Vault mod...

2020-10-15 09:09:31 369

原创 数据仓库层级划分

1.为什么要分层• 清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。• 数据血缘追踪:能够快速准确地定位到问题,并清楚它的危害范围。• 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。• 屏蔽原始数据的异常:不必改一次业务就需要重新接入数据。• 把复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现...

2020-10-14 21:57:57 1177

原创 数据仓库架构之争 Kimball vs Inmon

对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至有人把Inmon和Kimball之争称之为数据仓库界的“宗教战争”,那么本文就通过对两位提倡的数据仓库体系和市场流行的另一种体系做简单描述和比较,不是为了下定义那个好,那个不好,而是让初学者更明白两位数据仓库鼻祖对数据仓库体系的见解而已。 首先,我们谈Inmon的企业信息化工厂。 2000年5月,W.H.Inmon在DM Review杂志上发表一篇文章,里面写到一句话“......如果明天非得设计一个...

2020-10-13 20:28:57 114 1

原创 数据仓库模式:Kimball vs Inmon

1.概述Kimball和Inmon是两种主流的数据仓库方法论,分别由 Ralph Kimbal大神 和 Bill Inmon大神提出,在实际数据仓库建设中,业界往往会相互借鉴使用两种开发模式。本文将详细介绍 Kimball 和 Inmon 理论在实际数据仓库建设中的应用与对比,通过数据仓库理论武装数据仓库实践。2.什么是Kimball2.1 概念 Kimball 模式从流程上看是是自底向上的,即从数据集市到数据仓库再到数据源的一种敏捷开发方法。对于Kimball模式,...

2020-10-13 09:29:47 212

原创 数据仓库之范式建模

1.概述 数据仓库这个概念是由 Bill Inmon 所提出的,其功能是将组织通过联机事务处理(OLTP)所积累的大量的资料和数据,通过数据仓库理论所特点有的信息存储架构,进行系统的分析整理,利用各种的分析方法,比如联机分析处理(OLAP),数据挖掘(Data Mining),进而支持如决策支持系统(DSS)、主管资讯系统(EIS)的创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商务智能(BI)。 Bill Inmon 在 "B...

2020-10-12 21:36:28 219 1

原创 维度建模之案例详解

下面我们分别来学习维度表设计和事实表设计: •维度表设计:代理键,稳定维度,缓慢渐变维,拉链表 •事实表设计:事实表设计,明细事实表,聚合事实表 •数据仓库之拉链表详解1.维度表设计1.1 代理键维度表中必须有一个能够唯一标识一行记录的列(最好是原子性的列,不要是组合键), 通过该列维护维度表与事实表之间的关系,一般在维度表中业务主键符合条件可以当作维度主键。但是,数据仓库是整个公司数据的整合,这会涉及到多个数据源有相同维度,那么就会...

2020-10-12 21:13:03 1039

原创 维度建模之事实表

1.事实表概述 事实表存储了从业务活动或事件提炼出来的性能度量,它主要包含维度表的外键和连续变化的可加性数值、半可加事实和不可加事实。事实表产生于业务过程中而不是业务过程的描述性信息。它一般是行多列少,占了数据仓库的90%的空间。在维度模型中也有表示多对多关系的事实,其他都是维度表。2.事实表粒度 事实表的粒度是产生事实行的度量事件的业务定义。粒度确定了事实表的业务主键, 事实表的所有度量值必须具有相同的粒度。3.事实表设计原则原则一:尽可能包含所有业务与业务...

2020-10-12 09:51:33 134 1

原创 维度建模之维度表

1.维度表概述 维度表是对业务过程的上下文描述,主要包含代理键、文本信息和离散的数字。它是进入事实表的入口,丰富的维度属性给出了对事实表的分析切割能力,它一般是行少列多。如果属性值是离散的,用于过滤和标记的,就放到维度表里,如果是属性值是连续取值,用于计算的,就放到事实表中。2.维度的基本设计方法维度的设计过程就是确定维度属性的过程,如何生成维度属性,以及所有生成维度属性的优势,决定了维度使用的方便性。 Kimball所说,数据仓库的能力直接与维度属性的质量和深度成...

2020-10-11 23:26:40 713

原创 数据仓库之维度建模

1.数据仓库建模目标 数据仓库建模的目标是通过建模的方法更好的组织、存储数据,以便在性能、成本、 效率和数据质量之间找到最佳平衡点。 访问性能:能够快速查询所需的数据,减少数据 I/O; 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的数据 成本和计算成本; 使用效率:改善用户应用体验,提高使用数据的效率。 数据质量:整合所有数据源的数据,改善数据统计口径的不一致性,减少数据计算错误 上述的四点之间是存在冲突的,为了提高访问...

2020-10-11 19:49:34 197

原创 数据仓库之数据模型

1.什么是数据模型 数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。 数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型,一般的来说,我们数据仓库模型分为几下几个层次,如图 2 所示。 通过上面的图形,我们能够很容易的看出在整个数据仓库得建模过程中,我们需要...

2020-10-11 14:18:14 129

原创 数据仓库之源数据类型

数据仓库中集成了企业几乎所有的可以获取到的数据以用于数据分析和决策支持。这些进入到数据仓库中的数据无外乎三种类型:结构化数据、半结构化数据和非结构化数据,它们经过转化后以某种形式统一地储存在数据仓库中,即通常说的ETL(Extract, Transform, Load,抽取、转换、装载)的过程。下面主要说一下这三种数据类型的区别,它们分别包括哪些源数据以及这些数据在网站数据分析中的作用。结构化数据  这类数据的格式非常规范,典型的代表就是关系数据库中的数据,这些数据可以用二维表来存储,有固定...

2020-10-11 12:33:57 110 1

原创 数据仓库之源数据同步

1.数据同步 因为我们需要每天分析的数据都是最新的,所以就涉及数据同步。2.表的种类及其概念: 一般情况下表分为三个类型,分别是实体表、维度表和事务表2.1 实体表: 实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。2.2 维度表: 维度表,一般是指对应一些业务状态,代码的解释表。也可以称之为码表。比如地区表,订单类型,支付方式,审批状态,商品分类等等。 维度表可以分为两类:一般维度表和固定维度表 一般维度表...

2020-10-11 12:06:28 94

原创 数据仓库概述

1.什么是数据库 数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是 以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和 易扩展性的特点并可在一定范围内为多个用户共享。 常用的数据库有 MySQL、ORACLE、SQL Server 等。2.什么是数据仓库 数据仓库之父比尔·恩门(Bill Inmon)在19...

2020-10-11 10:56:24 117

原创 数据仓库优秀书籍推荐

1.数据仓库生命周期工具箱(第二版) 告诉你数据仓库从0到1都有什么流程,更多的是管理流程,每个阶段有什么样的文档。2.数据仓库工具箱-维度建模权威指南(第三版) 告诉你维度建模的表该如何设计,有坑了怎么解决。3.数据仓库ETL工具箱 告诉你模型建好了,ETL到底如何实施,ETL到底怎么设计,才能把数据仓库建好。...

2020-10-10 20:18:35 301

原创 数据仓库之人物篇

数据仓库领域,在业界有几位公认大牛。第一位 William H. (Bill) Inmon, 数据仓库之父,开山鼻祖,著书立说,培训演讲,出版了许多书。 我在这里推荐Building the Data Warehouse这本书,第四版出版于2005。他推崇使用Corporate Information Factory(CIF)的数据建模方法(使用范式模型构建企业数据仓库+各维度模型构建的业务主题数据集市),最近在新的数据仓库架构和实施方面和后起之秀Dan Linstedt合作推动新的...

2020-10-10 20:16:12 94

原创 《大数据之路:阿里巴巴大数据实践》读书笔记---第四篇 数据应用篇

四、数据应用篇16.数据应用 本篇主要介绍两个应用:提供给外部商家使用的数据产品平台-生意参谋和服务于阿里巴巴内部的数据产品平台16.1 生意参谋 作为大数据公司,阿里巴巴在推动业务数据化的同时,也在不断地帮助商家实现数据业务化。在对外产品方面,阿里巴巴以“生意参谋”作为官方统一的数据产品平台,为商家提供多种多样化,普惠性的数据赋能; 截止2016财年,生意参谋累计服务商家已超过2000万,越服务商家超过500万。在月成交额30W元以上的商家中,逾90%每月登陆天次超2...

2020-09-11 17:00:18 132

原创 《大数据之路:阿里巴巴大数据实践》读书笔记---第三篇 数据管理篇

三、数据管理篇12.元数据12.1 元数据概念12.1.1 元数据定义按照传统的定义,元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中的模型的定义、各层级间的映射关系、监控数据仓库的数据状态一级ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便的找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率; 类别: 技术元数据(Tec...

2020-09-11 14:51:19 252

原创 《大数据之路:阿里巴巴大数据实践》读书笔记---第二篇 数据模型篇

二、数据模型篇8.大数据领域建模综述8.1 为什么需要数据建模 数据建模就是数据组织和存储方法,他强调从业务、数据存储和实用角度合理存储数据。 有了适合业务和基础数据存储环境的模型,那么大数据就能获得以下好处: 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。 成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。 效率:良好的数据模型能极大地改善用户使用数据的体验,提高...

2020-09-10 10:41:17 751

原创 《大数据之路:阿里巴巴大数据实践》读书笔记---第一篇 数据技术篇

一、数据技术篇2.日志采集本章主要介绍数据采集中的日志采集部分,阿里巴巴的日志采集体系方案包括两大体系: Aplus.JS是Web端( 基于浏览器)日志采集技术方案; UserTrack是APP端(无线客户端)日志采集技术方案。 本章从浏览器的页面日志采集、无线客户端的日志采集以及我们遇到的日志采集挑战三块内容来阐述阿里巴巴的日志采集经验。2.1 浏览器的页面日志采集(1)页面浏览(展现)日志采集 顾名思义,页面浏览日志是指当一个页面被浏览器加载呈现时采集...

2020-09-09 22:56:57 315 1

原创 《大数据之路:阿里巴巴大数据实践》读书笔记---总述

0. 前言 今天花了些时间较为详细的阅读了《大数据之路:阿里巴巴大数据实践》,主要内容如下及后续篇幅。总述1.总述从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层。   数据采集层:以DataX为代表的数据同步工具和同步中心。   数据计算层:以MaxComputer为代表的离线数据存储和计算平台。   数据服务层:以RDS为代表的数据库服务(接口或者视图形式的数据服务)。   数据应用层:包含流量分析平台等数据应用工具。...

2020-09-09 22:28:56 131

原创 《大数据大创新:阿里巴巴云上数据中台之道》读书笔记

0. 前言 今天学习了邓中华老师这本《大数据大创新:阿里巴巴云上数据中台之道》,基本上可以窥见阿里数据中台的建设过程以及一些技术细节,主要内容如下笔记。1.大数据的发展历程和价值探索 从大数据的概念被正式提出,到马老师预言人类从IT时代走向DT时代,大数据浪潮迭起。 身为大数据开发者,我认同并且深信的一点就是,大数据一定会对社会创新、产业变革、业务创新及每个人的角色定位都会产生近乎决定性的影响。 阿里的云上数据中台,是历经阿里生态内各种业态挑剔...

2020-09-08 21:19:59 405

原创 ClickHosue 常用函数

参考1:https://blog.csdn.net/u012111465/article/details/85250030参考2 :https://www.cnblogs.com/superdrew/p/11279663.html参考3:https://blog.csdn.net/u012111465/article/details/83070018

2020-08-14 21:05:28 363

原创 ClickHosue 强大函数 argMin() 和argMax()

说实话,我喜欢Clickhouse 的函数,简单操作,功能强大。今天需要给大家介绍两个函数,argMin(),argMax() argMax():计算 ‘arg’ 最大值 ‘val’ 价值。 如果有几个不同的值 ‘arg’ 对于最大值 ‘val’,遇到的第一个值是输出。argMin() 与argMax() 的功能正好是相反的,如下是Clickhouse官方文档对这个函数的解释,看官应该看知道这个函数是用途了吧。 当然上图是argMin() 函数的简单案例,这里我想到的几个业务...

2020-08-14 20:32:06 243

原创 ClickHouse 为何如此之快

我们都知道,框架的设计可以分为自顶向下和自下而上,在传统观念中,或者说在我的观念中,做架构设计首先自然做的是顶层设计: 事先应该做高层次的抽象设计; 规划好各个模块的职责、切分的界面; 分配好工程结构、包结构,最好能再来一些设计图,等等。 而ClickHouse的设计,则采用了 自下而上。 他们是如何实践 自下而上 设计的呢? 从硬件功能层面着手设计,在设计伊始,就至少需要想清楚这么几个问题: 我们将要使用的硬件水平是怎样的?包括CPU、内存、硬盘、网

2020-08-12 23:59:15 260

原创 ClickHouse 性能优化

1. max_table_size_to_drop 此参数在 /etc/clickhouse-server/config.xml 中,应用于需要删除表或分区的情况,默认是50GB,意思是如果删除50GB以上的分区表会失败。建议修改为0,这样不管多大的分区表都可以删除。2. max_memory_usage 此参数在 /etc/clickhouse-server/config.xml 中,表示单次Query占用内存最大值,超过的话会查询失败。建议尽量调大一些。3.删除...

2020-08-12 23:40:52 1759

原创 ClickHouse 副本和分片

1.副本1.1 副本写入流程副本的目的主要是保障数据的高可用性,即使一台clickhouse节点宕机,那么也可以从其他服务器获得相同的数据。1.2 实现步骤 启动zookeeper集群和另外两台clickhouse 服务器 修改 /etc/metrika.xml 参数,参考:Clickhouse安装部署。 在 /etc/clickhouse-server/config.xml 中增加:<include_from> /etc/metrika.xml...

2020-08-12 21:35:57 2049 2

原创 ClickHouse SQL操作

基本上来说传统关系型数据库(以MySQL为例)的SQL语句,基本支持但是也有不一样的地方。 1.CREATE1.1 CREATE DATABASE 用于创建指定名称的数据库,语法如下:CREATE DATABASE [IF NOT EXISTS] db_name1.2 CREATE TABLEaCREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster](name1 [type1] ...

2020-08-12 00:35:24 1446

原创 ClickHouse 表引擎

表引擎(即表的类型)决定了: 数据的存储方式和位置,写到哪里以及从哪里读取数据。 //内存、磁盘 支持哪些查询以及如何支持。 //Alter、Update 并发数据访问。 //高并发 索引的使用(如果存在)。 是否可以执行多线程请求。 // 多线程 数据复制参数。 // 分片数据的复制 ClickHouse的表引擎有很多,下面介绍常用几种,对其他引擎有兴趣的可以去查阅官方文档:https://clickhouse.yandex/docs/zh/op

2020-08-11 22:59:44 516

原创 ClickHouse 数据类型

1.整型// 固定长度的整型,包括有符号整型或无符号整型。整型范围(-2n-1~2n-1-1):Int8 - [-128 : 127]Int16 - [-32768 : 32767]Int32 - [-2147483648 : 2147483647]Int64 - [-9223372036854775808 : 9223372036854775807]// 无符号整型范围(0~2n-1):UInt8 - [0 : 255]UInt16 - [0 : 65535.

2020-08-10 08:57:24 356

原创 ClickHouse 安装部署

1.安装前的准备1.1 CentOS取消打开文件数限制在/etc/security/limits.conf、/etc/security/limits.d/90-nproc.conf 这2个文件的末尾加入一下内容:[root@hadoop102 software]# vim /etc/security/limits.conf在文件末尾添加:* soft nofile 65536* hard nofile 65536* soft nproc 131072* hard nproc

2020-08-10 00:35:38 404

原创 ClickHouse 概述

1.ClickHouse 概述 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。2.Clickhouse 支持特性剖析2.1列式存储 列式储存的好处: 对于列的聚合,计数,求和等统计操作原因优于行式存储。 由于某一列的数据...

2020-08-10 00:30:30 156

数据仓库优秀书籍推荐(中文)

该内容包含 数据仓库生命周期工具箱,数据仓库工具箱 维度建模权威指南 第3版,The Data Warehouse ETL Toolkit(中文)这三本书,如果你能够坚持读完并且理解其内容,那么恭喜你最少可以成为一名优秀的数据仓库开发人员。

2019-02-22

使用Azkaban通过sqoop将mysql数据同步Hive

使用Azkaban通过sqoop将mysql数据同步Hive中,本文主要有全量导入和增量导入

2018-09-14

动态权限控制调研.zip

powerbi动态权限控制,主要是三种方法实现:1.PowerBI 中行级别安全性的静态设置;2.用 USERNAME() 实现动态安全性设置;3.由权限控制表来动态控制 PowerBI 权限

2019-07-05

数据仓库优秀书籍推荐

该内容包含 数据仓库生命周期工具箱数据仓库工具箱 维度建模权威指南 第3版,The Data Warehouse ETL Toolkit(中文)这三本书,如果你能够坚持读完并且理解其内容,那么数据仓库的大牛,下一个就是你。

2019-02-22

Hive练习源数据

当你看到这个的时候,我想你一定看到我的博客https://blog.csdn.net/luomingkui1109 这个数据可以让你更专注与hive的学习而不必在去造数据

2018-08-29

Druid在快手的应用

通过这篇文章,结合我前面的博客,可以让你更加深入的理解Druid在实际生产当中的应用。

2018-12-29

jira usage.pptx

JIRA 是在团队合作,项目管理的一款优秀工具,通过这篇文章,让每一位开发人员熟练使用JIRA

2019-07-05

Power BI workshop 20180626.pdf

该文章主要详细的介绍了PowerBI从数据采集,数据处理,数据发布的全流程技术选型和PowerBI和核心,如果你正在使用PowerBI,这个PPT一定该不会让你后悔的。

2019-06-16

大数据技术之HUE.doc.zip

HUE=HadoopUser Experience,看这名字就知道怎么回事了吧,没错,直白来说就是Hadoop用户体验,是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用HUE我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。 我们一般使用HUE和如下框架进行集成,例如:HDFS,YARN,HIVE,MYSQL,HBASE,Oozie,Sqoop2等。

2019-07-06

MySQL练习代码素材

该内容是本人博客练习sql使用的原素材,主要有:创建sql语句和插入大量数据。让你将更多的精力放在sql语句的其他学习方向上,而不再需要自己做创建sql语句和插入大量数据这样既浪费时间又毫无技术含量的工作。

2018-01-28

abctract代码联系

Java之对象、继承、封装、多态、抽象类的组合应用。 题目:编写工资系统,实现不同类型员工(多态)的按月发放工资。如果当月出现某个Employee对象的生日,则将该雇员的工资增加100元

2018-04-08

大数据技术之Linux.doc

linux 的详细介绍:包括linux的简介,安装部署,常用基本命令使用,shell的基本使用

2019-09-11

Hive练习代码

该代码是Hive中topN练习的代码,仅供参考:https://blog.csdn.net/Luomingkui1109/article/details/82178650

2018-08-29

Hibernate插件安装

Hibernate插件安装

2017-07-08

快捷支付接口文档

项目当中快捷支付文档

2017-08-24

通过sqoop将mysql和hive数据同步

本代码是通过sqoop将mysql和hive的数据进行同步,包括数据的导入导出。

2018-09-14

Redis详细安装

有网络和没有网络情况下Redis安装详细步骤,简单明了。

2017-10-22

在VM上安装CentOS

在VM上安装CentOS

2017-06-28

Mysql数据库的安装

mysql数据库的详细安装和卸载,让你将更多地精力集中于开发当中。

2017-12-29

从分区到Sharding:数据库核心业务表的分区设计

根据内部定义的规则,将一张表的数据拆分到多个数据段中,对应用透明,程序可以不做任何额外调整,可以通过分区列上的条件访问指定分区的数据,也可以通过分区扩展语句显式的访问 该文档来自:【2015 OTN】杨廷琨 - 从分区到Sharding:数据库核心业务表的分区设计

2017-10-02

Dubbo-monitor

Dubbo-monitor 的war包,只需要简单的配置即可完成。

2017-10-06

Git的安装下载以及配置

Git的安装下载以及配置

2017-06-28

在VM上安装VMTools

在VM上安装VMTools

2017-06-28

Hibernata插件安装

学习Hibernate必备技能,帮你更好的学习Hibernate.

2017-07-08

似梦似意境的留言板

发表于 2020-01-02 最后回复 2020-01-02

csdn回收站内容恢复

发表于 2017-05-22 最后回复 2017-05-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除