数据小小兜-CSDN博客

原创 3.5 Hadoop与数据仓库

3.5 Hadoop与数据仓库传统数据仓库一般建立在Oracle、MySQL这样的关系数据库系统之上。关系数据库主要的问题是不好扩展，或者说扩展的成本非常高，因此面对当前4Vs的大数据问题时显得能力不足，而这时就显示出Hadoop的威力。Hadoop生态圈最大的吸引力是它有能力处理非常大的数据量。在大多数情况下，Hadoop生态圈的工具能够比关系数据库处理更多的数据，因为数据和计算都是分布式的。还用介绍MapReduce时的那个例子进行说明：在一个10TB的Web日志文件中，找出单词‘ERR

2022-07-15 07:50:20 394 1

原创 3．hadoop中的数据复制

HDFS可以保证集群中文件存储的可靠性。它把文件分解成一个由数据块构成的序列，每个数据块有多个副本，这种数据冗余对容错非常关键。当一个数据块损坏时，不会造成数据丢失。数据块的大小和复制因子对每个文件都是可配的。一般情况下，HDFS中一个文件的所有数据块，除最后一个块外，都有同样的大小。但是，HDFS支持变长的数据块，就是说一个文件有可能包含两种大小的数据块。当用户重新配置了文件的块大小，然后向该文件中追加数据，这时HDFS不会填充文件的最后一个块，而是用新的尺寸创建新块存储追加的数据，这种情况下文件

2022-06-23 07:51:36 1655

原创 2. HDFS架构

HDFS是主/从架构。一个HDFS集群有一个NameNode进程，它负责管理文件系统的命名空间，这里所说的命名空间是指一种层次化的文件组织形式。NameNode进程控制被客户端访问的文件，运行NameNode进程的节点是HDFS的主节点。HDFS还有许多DataNode进程，通常集群中除NameNode外的每个节点都运行一个DataNode进程，它管理所在节点上的存储。运行DataNode进程的节点是HDFS的从节点，又称工作节点。HDFS维护一个文件系统命名空间，并允许将用户数据存储到文

2022-06-06 07:43:06 547

原创 Hadoop基本组件和HDFS的目标

3.3 Hadoop基本组件Hadoop实际是由三个不同的组件构成：● HDFS:Hadoop分布式文件系统。● YARN：一个资源调度框架。● MapReduce：一个分布式处理框架。1. HDFS的目标● 硬件容错。检测硬件错误并从有问题的硬件快速自动恢复，就成为HDFS架构的核心目标。● 流式数据访问。流式访问就是对数据边读取边处理，而不是将整个数据集读取完成后再开始处理。● 支持大数据集。HDFS中一个典型文件的大小是几GB到几TB。HDFS需要支持大文件，它应该提供很大的数

2022-05-18 17:14:17 1280

原创 3.2 Hadoop简介

Hadoop是较早用来处理大数据集合的分布式存储计算基础架构，最早由Apache软件基金会开发。Hadoop软件库是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。Hadoop被设计成可扩展的，它可以方便地从单一服务器扩展到数千台机器，每台机器进行本地计算和存储。3.2.1 Hadoop的构成Hadoop包括以下四个基本模块：● Hadoop基础功能库：支持其他Hadoop模块的通用程序包。● HDFS：一个分布式文件系统，能够以高吞吐量访

2022-05-13 07:36:38 2515

原创 3.1 大数据定义

2012年，Gartner将它的定义修改为：大数据是大容量（Volume）、高流速（Velocity）、多样化（Variety）的信息资产，它需要新的数据处理形式来增强决策、提升洞察力、优化处理过程。有些组织在3V的基础上增加了一个新的V-“Veracity”，即真实性来描述大数据。用中文简单描述就是大、快、多、真。1. Volume——生成和存储的数据量大例如百度每日处理的数据量达上百PB，总的数据量规模已经到达EP级。2. Velocity——数据产生和处理速度快例如，2015年双十一当天，

2022-05-12 23:44:53 1211

原创第2章数据仓库设计基础

《Hadoop构建数据仓库实践》作者：王雪迎解读：小小兜三种常见的数据仓库模型：关系数据模型、多维数据模型和Data Vault模型2.1 关系数据模型关系数据模型的两组术语：“关系、属性、元组”和“表、列、行”。在这里它们的含义是相同的，只不过前者是关系数据模型的正式术语，而后者是常用的数据库术语。在选择主键时，我们可以参考以下原则：1.主键要尽可能地小。2.主键值不应该被改变。主键会被其他表所引用。3.主键通常使用数字类型。4.主键应该是没有业务含义的，它.

2022-04-27 22:29:55 289

原创 1.3 数据仓库架构

1.3.1 基本架构RDS（RAW DATA STORES）是原始数据存储的意思TDS（TRANSFORMED DATA STORES）意为转换后的数据存储。这是真正的数据仓库中的数据。自动化调度组件的作用是自动定期重复执行ETL过程：传统数据仓库一般利用操作系统自带的调度功能（如Linux的cron或Windows的计划任务）实现作业自动执行。1.3.2 主要数据仓库架构几种主要的架构方法：包括数据集市架构、Inmon企业信息工厂架构、Kimball数据仓库架构和混合型数据仓库架构。操作数据存储

2022-04-24 23:57:54 449

原创 1.2 操作型系统与分析型系统(读书笔记)

1.2 操作型系统与分析型系统操作型系统完成组织的核心业务，例如下订单、更新库存、记录支付信息等。这些系统是事务型的，核心目标是尽可能快地处理事务，同时维护数据的一致性和完整性。分析型系统的主要作用是通过数据分析评估组织的业务经营状况，并进一步辅助决策。事务是工作于数据库管理系统（或类似系统）中的一个逻辑单元，该逻辑单元中的操作被以一种独立于其他事务的可靠方式所处理。事务一般代表着数据改变，它提供“all-or-nothing”操作，就是说事务中的一系列操作要么完全执行，要么完全不执行事务的目的

2022-04-24 08:39:54 276

原创什么是数据仓库

《Hadoop构建数据仓库实践》读书笔记作者：王雪迎1.数据仓库的定义数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse 一书中首次提出了被广为认可的数据仓库定义。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持管理者的决策过程。a.面向主题：主题是一个抽象概念，简单地说就是与业务相关的数据的类别，每一个主题基本对应一个宏观的分析领域。主题域是对某个主题进行分析后确定的主题的边界，如客户、销售、产品都

2022-04-23 19:59:38 438

cjjtree123的博客