自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 怪大地众生太美丽

金庸笔下两宋三百年

2022-11-03 20:33:55 721 1

原创 Hadoop 大数据生态框架--Hive

1. Hive 入门1.1 什么是 HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上1.2 Hive 的优缺点1.2.1 优点:操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。避免了去写M

2021-10-12 21:15:25 701

原创 —城隍赋—

城隍之庙,始于明,传于清。道法自然,历久弥新。殚土木之功,穷造形之极,兴汉室文种,抚一方百姓。城隍者,皆为大功于民之士也,或沙场纵横,护境驱敌,以安百姓之居者,或开山利水,经国济世,以兴江山社稷者,或格物穷理,文以载道,以传万物之法者。凡此大利于民,功泽千秋者,方可封神祭祀,为万民所仰。洪武八年,池阳城隍立,威灵昭祠,云映旌旗,风振铜铎,斗拱出檐,顶覆琉璃,浮雕轩窗,八卦悬顶,十柱立天。坊上木雕,龙戏玉珠,凤凰还巢,狮滚绣球。入而山门,青石铺路,贯通南北,东西画壁,三绝之碑,鹏举墨书,孔明出...

2021-10-11 18:59:25 249

原创 企业级数据管理——DAMA数据管理

1. 基本概念1.1 数据1.2 数据和信息1.3 数据管理原则1.4 数据价值1.5 数据质量1.6 元数据管理1.7 数据生命周期2. 数据管理框架2.1 战略一致性模型2.2 阿姆斯特丹信息模型2.3 DAMA - DMBOK 模型2.4 DMBOK 金字塔(Aiken)2.5 DAMA 数据管理框架的进化...

2021-09-23 20:54:27 2830

原创 Hadoop 大数据生态框架--总述

1. 前言:什么是大数据?什么是分布式?官方概念就不在这里赘述了,以笔者的理解,所谓大数据,不是指绝对数据量很大,经常有人说 PB,TB级大数据处理技术等等。试想如果未来的硬件性能有跨越式发展,常规软件就能在短时间内对 PB 级数据进行捕捉、管理和处理,那么 PB 级的数据还叫大数据吗?所谓大数据,是相对于存储能力和计算能力来讲的,当数据规模大到一定程度时,无法在一定时间范围内用常规软件工具进行捕捉、管理和处理,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。目前「分布式」是大数据场景的

2021-09-16 20:46:36 774

原创 数仓分层架构

目录数仓为什么要分层数仓分层架构图名词介绍分层介绍数仓为什么要分层数据仓库一般存储的是企业级的海量数据,数据来源多样,抽象程度多样。如果直接让用户使用这些未提取的数据,会造成用户的混乱,久而久之也会让数仓变得无法管理。数仓分层是一个必不可少的设计环节。清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。 数据血缘追踪:简单来讲可以这样理解,我们最终给业务呈现的是一张能直接使用的张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希..

2021-08-17 20:41:41 2141

原创 数据仓库-维度建模

目录数据仓库定义数据仓库和数据库维度建模维度建模 VS 第三范式维度建模设计过程事实概念事实表技术维度概念维度表技术数据仓库定义数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库和数据库数据库主要用于事务处理,...

2021-08-16 21:50:44 992

原创 Hadoop伪分布搭建手册

Hadoop伪分布集群搭建 第1章 Hadoop集群搭建 1.1前言 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS是一个分布式文件系统(Hadoop Distributed File System),为海量的数据...

2019-10-31 20:19:46 217

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除