排序:
默认
按更新时间
按访问量

MapReduce的工作流程

首先是客户端要编写好mapreduce程序,配置好mapreduce的作业也就是job, 接下来就是提交job了,提交job是提交到JobTracker上的,这个时候JobTracker就会构建这个job,具体就是分配一个新的job任务的ID值。     接下来它会做检查操作,这个检查...

2018-01-28 09:18:38

阅读数:58

评论数:0

HDFS读写策略

一、HDFS读取文件操作:  客户端发起读文件请求,向NameNode发送请求(当然还有第二个NameNode),由于NameNode存放着DataNode的信息,比如说数据块的存放信息等,所以NameNode会向客户端返回元数据,这些元数据包含了数据块的信息等。客户端得到元数据后直接去...

2018-01-24 19:34:48

阅读数:55

评论数:0

HDFS数据块

磁盘也是由数据块组成的,一般默认大小是512字节,构建磁盘之上的文件系统一般是磁盘块的整数倍。          HDFS也是采用块管理的,但是比较大,在Hadoop1.x中默认大小是64M,Hadoop2.x中大小默认为128M,那为什么HDFS块这么大呢,又为什么Hadoop2.x中数据块更...

2018-01-24 19:29:24

阅读数:120

评论数:0

HDFS元数据

2.1 概述 从形式上讲,元数据可分为内存元数据和元数据文件两种。其中NameNode在内存中维护整个文件系统的元数据镜像,用于HDFS的管理;元数据文件则用于持久化存储。 从类型上讲,元数据有三类重要信息: 第一类是文件和目录自身的属性信息,例如文件名、目录名、...

2018-01-24 19:27:42

阅读数:117

评论数:0

HDFS架构

HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分      1、Client:就是客户端。 文件切分。文件上传 HD...

2018-01-24 19:19:38

阅读数:46

评论数:0

副本策略、primary-secondary、paxos

副本策略 a、副本       副本(replica/copy)指在分布式系统中为数据或服务提供的冗余。       对于数据副本指在不同的节点上持久化同一份数据,当出现某一个节点的存储的数据丢失时,可以从副本上读到数据。       数据副本是分布式系统解决数据丢失异常的唯一手段。  ...

2018-01-24 09:09:22

阅读数:58

评论数:0

数据分割

数据分割(data partitioning; data partition)是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单元进行存储,以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。数据分割使数据仓库的开发人员和使用者具有更大的灵活性。 数据分割的标准可以根据实际情...

2018-01-24 09:09:14

阅读数:50

评论数:0

CAP原则(CAP定理)、BASE理论

CAP原则又称CAP定理,指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。   CAP原则是NOSQL数据库的基石。Consistency(一致性)。 Availabili...

2018-01-24 09:09:07

阅读数:113

评论数:0

数据分析与数据挖掘的区别和联系?

数据分析与数据挖掘的界定非常的模糊。但有一点可以确定,数据分析输出的是统计结果,比如总计,平均值等,数据挖掘输出的是模型或规则,我们一起来看下之间区别: 二者有以下几点区别 1.对计算机编程能力的要求不同       一个对编程、敲代码一窍不通的人完全可以成为一名优秀的数据分析师。数据分析很...

2018-01-24 09:08:46

阅读数:118

评论数:0

什么是Hadoop?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDF...

2018-01-24 09:08:35

阅读数:320

评论数:0

什么是数据仓库?

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,是面向主题的、集成的、与时间相关且不可修改的数据集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务...

2018-01-24 09:08:20

阅读数:46

评论数:0

什么是大数据?大数据的特征有哪些?

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。     大数据有这样几个特征:     容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;     种类(Variety):数据类型的多样性; ...

2018-01-24 09:08:08

阅读数:327

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭