- 博客(5)
- 资源 (7)
- 收藏
- 关注
原创 10、MapReduce的工作原理
1、运行MapReduce作业JobClient的runJob()方法是用于新建JobClient实例和调用其submitJob()方法的简便方法(步骤1),submitJob()方法实现的作业提交过程如下:1)向jotracker请求一个新的作业ID(通过JobTracker的getNewJodId())(步骤2)。2)检查作业的输出说明。比如如果没有制定输出目录或者已经存在
2016-03-29 15:39:55 618
转载 Hadoop学习:Combiner
转载至点击打开链接在本节中,我们着重学习MapReduce编程模型中的Combiner组件。 每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。 1)、Combiner最基本是实现本地key的聚合,对
2016-03-28 12:07:18 818
原创 9、Hadoop的I/O
1、数据完整性Hadoop的用户当然希望数据在磁盘I/O或网络传输时不发生丢失或损坏。但是通过的数据流量非常大,数据发生损坏的几率还是很大的。HDFS的数据完整性:HDFS以透明方式校验所有写入它的数据,并在默认设置下,会在读取数据时验证校验和。数据节点负责在存储数据及其校验和前验证它们收到的数据。客户端读取数据节点上的数据时,会验证校验和,将其与数据节点上的校验和对比。Hadoop本
2016-03-06 20:50:25 1049
原创 8、Hadoop分布式文件系统
从今天开始学习《Hadoop权威指南》,希望学有所获。。。。1、HDFS的设计Hadoop的分布式文件系统被称为HDFS(Hadoop Distributed File System),是以流式数据访问模式存储超大文件而设计的文件系统,在商用硬件的集群上运行。其中,流式数据访问:HDFS是建立在一次写入,多次读取模式是最高效的思想基础上的。商用硬件是Hadoop不需要运行在昂贵、可靠的硬件
2016-03-05 15:05:22 667
原创 7、压缩与解压缩
在hadoop中有两个地方需要用到压缩:其一是在HDFS上存储数据,节省存储空间;其二是集群间的通讯需要数据压缩,提高带宽的利用率。在java中一切输入输出都是以流的方式进行。一个可以读取字节序列的对象叫输入流,一个可以写入字节序列的对象叫输出流,如文件,网络连接、内存等都可以是输入和输出流。1、从文件到文件的压缩package com.kevin.hadoop;import java
2016-03-01 21:55:34 411
MATLAB环境下的语音识别系统
2013-04-30
MATLAB环境下的基于HMM模型的语音识别系统
2013-04-30
通信原理MATLAB仿真
2013-04-28
语音信号处理
2013-04-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人