自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 MapReduce的工作流程

首先是客户端要编写好mapreduce程序,配置好mapreduce的作业也就是job,接下来就是提交job了,提交job是提交到JobTracker上的,这个时候JobTracker就会构建这个job,具体就是分配一个新的job任务的ID值。    接下来它会做检查操作,这个检查就是确定输出目录是否存在,如果存在那么job就不能正常运行下去,JobTracker会抛出错误给客户端

2018-01-28 09:18:38 506

转载 HDFS读写策略

一、HDFS读取文件操作: 客户端发起读文件请求,向NameNode发送请求(当然还有第二个NameNode),由于NameNode存放着DataNode的信息,比如说数据块的存放信息等,所以NameNode会向客户端返回元数据,这些元数据包含了数据块的信息等。客户端得到元数据后直接去读取数据块,实现了文件的读取。二、HDFS写文件操作: 客户端得到文件后将文件进行

2018-01-24 19:34:48 500

转载 HDFS数据块

磁盘也是由数据块组成的,一般默认大小是512字节,构建磁盘之上的文件系统一般是磁盘块的整数倍。         HDFS也是采用块管理的,但是比较大,在Hadoop1.x中默认大小是64M,Hadoop2.x中大小默认为128M,那为什么HDFS块这么大呢,又为什么Hadoop2.x中数据块更大了呢?          权威指南中说,为了最小化寻址开销,也就是让文件传输时间明显大于块的寻址

2018-01-24 19:29:24 443

转载 HDFS元数据

2.1 概述从形式上讲,元数据可分为内存元数据和元数据文件两种。其中NameNode在内存中维护整个文件系统的元数据镜像,用于HDFS的管理;元数据文件则用于持久化存储。从类型上讲,元数据有三类重要信息:第一类是文件和目录自身的属性信息,例如文件名、目录名、父目录信息、文件大小、创建时间、修改时间等。第二类记录文件内容存储相关信息,例如文件块情况、副本个数、

2018-01-24 19:27:42 3231

转载 HDFS架构

HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分     1、Client:就是客户端。文件切分。文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。与 NameNode 交

2018-01-24 19:19:38 199

转载 副本策略、primary-secondary、paxos

副本策略a、副本      副本(replica/copy)指在分布式系统中为数据或服务提供的冗余。      对于数据副本指在不同的节点上持久化同一份数据,当出现某一个节点的存储的数据丢失时,可以从副本上读到数据。      数据副本是分布式系统解决数据丢失异常的唯一手段。      另一类副本是服务副本,指数个节点提供某种相同的服务,这种服务一般并不依赖于节点的本地存储,其

2018-01-24 09:09:22 876

转载 数据分割

数据分割(data partitioning; data partition)是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单元进行存储,以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。数据分割使数据仓库的开发人员和使用者具有更大的灵活性。数据分割的标准可以根据实际情况来确定,通常可选择按日期、地域、业务领域或组织单位等来进行分割,也可以按多个分割标准的组合来进行,但

2018-01-24 09:09:14 1423

转载 CAP原则(CAP定理)、BASE理论

CAP原则又称CAP定理,指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。  CAP原则是NOSQL数据库的基石。Consistency(一致性)。 Availability(可用性)。Partition tolerance(分区容错性)。分布式系统的CAP理论:理论

2018-01-24 09:09:07 1507

转载 数据分析与数据挖掘的区别和联系?

数据分析与数据挖掘的界定非常的模糊。但有一点可以确定,数据分析输出的是统计结果,比如总计,平均值等,数据挖掘输出的是模型或规则,我们一起来看下之间区别:二者有以下几点区别1.对计算机编程能力的要求不同      一个对编程、敲代码一窍不通的人完全可以成为一名优秀的数据分析师。数据分析很多时候用到的都是诸如Excel、SPSS、SAS等成型的分析工具,这些工具已经可以满足大多数数据分析的

2018-01-24 09:08:46 7256

转载 什么是Hadoop?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high

2018-01-24 09:08:35 513

转载 什么是数据仓库?

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,是面向主题的、集成的、与时间相关且不可修改的数据集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

2018-01-24 09:08:20 278

转载 什么是大数据?大数据的特征有哪些?

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。    大数据有这样几个特征:    容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;    种类(Variety):数据类型的多样性;    速度(Velocity):指获得数据的速度;    可变性(Variabilit

2018-01-24 09:08:08 21848

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除