popSCorn30-CSDN博客

转载 MapReduce的工作流程

首先是客户端要编写好mapreduce程序，配置好mapreduce的作业也就是job，接下来就是提交job了，提交job是提交到JobTracker上的，这个时候JobTracker就会构建这个job，具体就是分配一个新的job任务的ID值。接下来它会做检查操作，这个检查就是确定输出目录是否存在，如果存在那么job就不能正常运行下去，JobTracker会抛出错误给客户端

2018-01-28 09:18:38 527

转载 HDFS读写策略

一、HDFS读取文件操作：客户端发起读文件请求，向NameNode发送请求（当然还有第二个NameNode），由于NameNode存放着DataNode的信息，比如说数据块的存放信息等，所以NameNode会向客户端返回元数据，这些元数据包含了数据块的信息等。客户端得到元数据后直接去读取数据块，实现了文件的读取。二、HDFS写文件操作：客户端得到文件后将文件进行

2018-01-24 19:34:48 544

转载 HDFS数据块

磁盘也是由数据块组成的，一般默认大小是512字节，构建磁盘之上的文件系统一般是磁盘块的整数倍。 HDFS也是采用块管理的，但是比较大，在Hadoop1.x中默认大小是64M，Hadoop2.x中大小默认为128M，那为什么HDFS块这么大呢，又为什么Hadoop2.x中数据块更大了呢？权威指南中说，为了最小化寻址开销，也就是让文件传输时间明显大于块的寻址

2018-01-24 19:29:24 468

转载 HDFS元数据

2.1 概述从形式上讲，元数据可分为内存元数据和元数据文件两种。其中NameNode在内存中维护整个文件系统的元数据镜像，用于HDFS的管理；元数据文件则用于持久化存储。从类型上讲，元数据有三类重要信息：第一类是文件和目录自身的属性信息，例如文件名、目录名、父目录信息、文件大小、创建时间、修改时间等。第二类记录文件内容存储相关信息，例如文件块情况、副本个数、

2018-01-24 19:27:42 3321

转载 HDFS架构

HDFS 采用Master/Slave的架构来存储数据，这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分　　1、Client：就是客户端。文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。与 NameNode 交

2018-01-24 19:19:38 216

转载副本策略、primary-secondary、paxos

副本策略a、副本副本（replica/copy）指在分布式系统中为数据或服务提供的冗余。对于数据副本指在不同的节点上持久化同一份数据，当出现某一个节点的存储的数据丢失时，可以从副本上读到数据。数据副本是分布式系统解决数据丢失异常的唯一手段。另一类副本是服务副本，指数个节点提供某种相同的服务，这种服务一般并不依赖于节点的本地存储，其

2018-01-24 09:09:22 1033

转载数据分割

数据分割(data partitioning; data partition)是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单元进行存储，以便于重构、重组和恢复，以提高创建索引和顺序扫描的效率。数据分割使数据仓库的开发人员和使用者具有更大的灵活性。数据分割的标准可以根据实际情况来确定，通常可选择按日期、地域、业务领域或组织单位等来进行分割，也可以按多个分割标准的组合来进行，但

2018-01-24 09:09:14 1546

转载 CAP原则(CAP定理)、BASE理论

CAP原则又称CAP定理，指的是在一个分布式系统中， Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼。　　CAP原则是NOSQL数据库的基石。Consistency（一致性）。 Availability（可用性）。Partition tolerance（分区容错性）。分布式系统的CAP理论：理论

2018-01-24 09:09:07 1548

转载数据分析与数据挖掘的区别和联系？

数据分析与数据挖掘的界定非常的模糊。但有一点可以确定，数据分析输出的是统计结果，比如总计，平均值等，数据挖掘输出的是模型或规则，我们一起来看下之间区别：二者有以下几点区别1.对计算机编程能力的要求不同一个对编程、敲代码一窍不通的人完全可以成为一名优秀的数据分析师。数据分析很多时候用到的都是诸如Excel、SPSS、SAS等成型的分析工具，这些工具已经可以满足大多数数据分析的

2018-01-24 09:08:46 7372

转载什么是Hadoop？

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high

2018-01-24 09:08:35 523

转载什么是数据仓库？

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合，是面向主题的、集成的、与时间相关且不可修改的数据集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

2018-01-24 09:08:20 294

转载什么是大数据？大数据的特征有哪些？

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据有这样几个特征：容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息；种类（Variety）：数据类型的多样性；速度（Velocity）：指获得数据的速度；可变性（Variabilit

2018-01-24 09:08:08 22094