- 博客(5)
- 收藏
- 关注
转载 MapReduce
一、MapReduce的大体流程,如图所示:由图片可以看到mapreduce执行下来主要包含这样几个步骤1.首先对输入数据源进行切片2.master调度worker执行map任务3.worker读取输入源片段4.worker执行map任务,将任务输出保存在本地5.master调度worker执行reduce任务,reduce worker读取map任务的输出文件6.
2017-07-23 18:41:03 392
转载 总结HDFS的I/O操作
1、数据完整性IO操作过程中难免会出现数据丢失或脏数据,数据传输得量越大出错得几率越高。校验错误最常用得办法就是传输前计算一个校验和,传输后计算一个校验和,两个校验和如果不相同就说明数据存在错误,比较常用得错误校验码是CRC32.hdfs数据完整性hdfs写入的时候计算出校验和,然后每次读的时候再计算校验和。要注意的一点是,hdfs每固定长度就会计算一次校验和,这个值由io.byt
2017-07-20 19:00:59 1085
转载 HDFS小结
HDFS简单介绍HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。 与其他分布式文件系统显著不同的特点是:HDFS是一个高容错系统且能运行在各种低成本硬件上; 提供高吞吐量,适合于存储大数据集; HDFS提供流式数据访问机制。 HDFS起源于Apache Nutch,现在是Apache Hadoop项目的核心
2017-07-19 19:08:10 303
原创 Hadoop小结
1、Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。 2、Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统,提供了海量数据的存储,大文件被分成默认64M一块的数
2017-07-19 08:48:46 492
原创 初识大数据
一、结构化与非结构化数据类型结构化数据类型:用户定义的数据类型,它包含一些非源自的元素,更确切地说,这些数据类型是可以分割的,它们既可以单独使用,又可以在适当情况下作为一个独立的单元使用;非结构化数据类型:指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理分结构化数据(全文文本、图像、声
2017-07-19 08:45:22 355
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人