hadoop
文章平均质量分 81
闷闷地
闷闷的程序猿
展开
-
HDFS的IO操作
一、数据完整性 IO操作过程中难免会出现数据丢失或脏数据,数据传输得量越大出错得几率越高,而用户希望储存和处理数据的时候,不会有任何损失或者损坏。 Hadoop提供两种校验 1校验和(常用循环冗余校验CRC-32) 2运行后台进程来检测数据块校验和转载 2017-07-20 20:38:40 · 821 阅读 · 0 评论 -
VMware下,Hadoop集群的配置
一、单机版配置 首先,先安装一个单机的Hadoop。选择VM10和64位的Ubuntu14.04为例。用户名为hadoop。 第一步,安装JDK。先下载一个jdk,可以选择直接下载,也可以从其他地方拷一个JDK解压。直接下载可以执行命令$sudo apt-get install jdk。本例选择离线安装,新建一个文件夹 $mkdir ~/software转载 2017-07-18 21:45:34 · 422 阅读 · 0 评论 -
Hadoop学习(二)
HDFS的master/slave架构 相比于基于P2P模型的分布式文件系统架构,HDFS采用的是基于Master/Slave主从架构的分布式文件系统,一个HDFS集群包含一个单独的Master节点和多个Slave节点服务器,这里的一个单独的Master节点的含义是HDFS系统中只存在一个逻辑上的Master组件。转载 2017-07-19 16:25:47 · 255 阅读 · 0 评论 -
MapReduce学习(1)
MapReduce是一个编程模型,用以进行大数据量的计算MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集Mapreduce的特点: 1.软件框架 2.并行处理 3.可靠且容错 4.大规模集群 5.海量数据集转载 2017-07-23 15:52:11 · 341 阅读 · 0 评论 -
MapReduce学习(2)
MapReduce的工作流程总结:按照时间顺序包括: 输入分片(input split)、 map阶段、 combiner阶段、 shuffle阶段和 reduce阶段。转载 2017-07-23 16:21:27 · 591 阅读 · 0 评论 -
MapReduce学习(3)
map函数的参数 Mapper接口是一个泛型类型,它有四个形参类型,分别指定map函数的输入键,输入值,输出键和输出值得类型。 输入键是一个长整型偏移量(文件中的行偏移量,该行起始位置相对于文件起始位置的偏移量),输入值则是读取的数据,输出键和输出值和reduce函数的输入相对应。原创 2017-07-23 19:32:11 · 399 阅读 · 0 评论