自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 3.5 Hadoop与数据仓库

3.5 Hadoop与数据仓库传统数据仓库一般建立在Oracle、MySQL这样的关系数据库系统之上。关系数据库主要的问题是不好扩展,或者说扩展的成本非常高,因此面对当前4Vs的大数据问题时显得能力不足,而这时就显示出Hadoop的威力。Hadoop生态圈最大的吸引力是它有能力处理非常大的数据量。在大多数情况下,Hadoop生态圈的工具能够比关系数据库处理更多的数据,因为数据和计算都是分布式的。还用介绍MapReduce时的那个例子进行说明:在一个10TB的Web日志文件中,找出单词‘ERR

2022-07-15 07:50:20 393 1

原创 3.hadoop中的数据复制

HDFS可以保证集群中文件存储的可靠性。它把文件分解成一个由数据块构成的序列,每个数据块有多个副本,这种数据冗余对容错非常关键。当一个数据块损坏时,不会造成数据丢失。数据块的大小和复制因子对每个文件都是可配的。一般情况下,HDFS中一个文件的所有数据块,除最后一个块外,都有同样的大小。但是,HDFS支持变长的数据块,就是说一个文件有可能包含两种大小的数据块。当用户重新配置了文件的块大小,然后向该文件中追加数据,这时HDFS不会填充文件的最后一个块,而是用新的尺寸创建新块存储追加的数据,这种情况下文件

2022-06-23 07:51:36 1650

原创 2. HDFS架构

HDFS是主/从架构。一个HDFS集群有一个NameNode进程,它负责管理文件系统的命名空间,这里所说的命名空间是指一种层次化的文件组织形式。NameNode进程控制被客户端访问的文件,运行NameNode进程的节点是HDFS的主节点。HDFS还有许多DataNode进程,通常集群中除NameNode外的每个节点都运行一个DataNode进程,它管理所在节点上的存储。运行DataNode进程的节点是HDFS的从节点,又称工作节点。HDFS维护一个文件系统命名空间,并允许将用户数据存储到文

2022-06-06 07:43:06 546

原创 Hadoop基本组件和HDFS的目标

3.3 Hadoop基本组件Hadoop实际是由三个不同的组件构成:● HDFS:Hadoop分布式文件系统。● YARN:一个资源调度框架。● MapReduce:一个分布式处理框架。1. HDFS的目标● 硬件容错。检测硬件错误并从有问题的硬件快速自动恢复,就成为HDFS架构的核心目标。● 流式数据访问。流式访问就是对数据边读取边处理,而不是将整个数据集读取完成后再开始处理。● 支持大数据集。HDFS中一个典型文件的大小是几GB到几TB。HDFS需要支持大文件,它应该提供很大的数

2022-05-18 17:14:17 1273

原创 3.2 Hadoop简介

Hadoop是较早用来处理大数据集合的分布式存储计算基础架构,最早由Apache软件基金会开发。Hadoop软件库是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。Hadoop被设计成可扩展的,它可以方便地从单一服务器扩展到数千台机器,每台机器进行本地计算和存储。3.2.1 Hadoop的构成Hadoop包括以下四个基本模块:● Hadoop基础功能库:支持其他Hadoop模块的通用程序包。● HDFS:一个分布式文件系统,能够以高吞吐量访

2022-05-13 07:36:38 2512

原创 3.1 大数据定义

2012年,Gartner将它的定义修改为:大数据是大容量(Volume)、高流速(Velocity)、多样化(Variety)的信息资产,它需要新的数据处理形式来增强决策、提升洞察力、优化处理过程。有些组织在3V的基础上增加了一个新的V-“Veracity”,即真实性来描述大数据。用中文简单描述就是大、快、多、真。1. Volume——生成和存储的数据量大例如百度每日处理的数据量达上百PB,总的数据量规模已经到达EP级。2. Velocity——数据产生和处理速度快例如,2015年双十一当天,

2022-05-12 23:44:53 1196

原创 第2章 数据仓库设计基础

《Hadoop构建数据仓库实践》 作者:王雪迎解读:小小兜三种常见的数据仓库模型:关系数据模型、多维数据模型和Data Vault模型2.1 关系数据模型关系数据模型的两组术语:“关系、属性、元组”和“表、列、行”。在这里它们的含义是相同的,只不过前者是关系数据模型的正式术语,而后者是常用的数据库术语。在选择主键时,我们可以参考以下原则:1.主键要尽可能地小。2.主键值不应该被改变。主键会被其他表所引用。3.主键通常使用数字类型。4.主键应该是没有业务含义的,它.

2022-04-27 22:29:55 287

原创 1.3 数据仓库架构

1.3.1 基本架构RDS(RAW DATA STORES)是原始数据存储的意思TDS(TRANSFORMED DATA STORES)意为转换后的数据存储。这是真正的数据仓库中的数据。自动化调度组件的作用是自动定期重复执行ETL过程:传统数据仓库一般利用操作系统自带的调度功能(如Linux的cron或Windows的计划任务)实现作业自动执行。1.3.2 主要数据仓库架构几种主要的架构方法:包括数据集市架构、Inmon企业信息工厂架构、Kimball数据仓库架构和混合型数据仓库架构。操作数据存储

2022-04-24 23:57:54 444

原创 1.2 操作型系统与分析型系统(读书笔记)

1.2 操作型系统与分析型系统操作型系统完成组织的核心业务,例如下订单、更新库存、记录支付信息等。这些系统是事务型的,核心目标是尽可能快地处理事务,同时维护数据的一致性和完整性。分析型系统的主要作用是通过数据分析评估组织的业务经营状况,并进一步辅助决策。事务是工作于数据库管理系统(或类似系统)中的一个逻辑单元,该逻辑单元中的操作被以一种独立于其他事务的可靠方式所处理。事务一般代表着数据改变,它提供“all-or-nothing”操作,就是说事务中的一系列操作要么完全执行,要么完全不执行事务的目的

2022-04-24 08:39:54 267

原创 什么是数据仓库

《Hadoop构建数据仓库实践》读书笔记作者:王雪迎1.数据仓库的定义数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse 一书中首次提出了被广为认可的数据仓库定义。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。a.面向主题:主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都

2022-04-23 19:59:38 437

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除