节点的网络拓扑距离

The idea is that the bandwidth available for each of the following scenarios becomes progressively less:1. Processes on the same node 2. Different n...

2016-12-23 21:36:31

阅读数 1211

评论数 0

HDFS写文件过程

客户端调用create()来创建文件DistributedFileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件。元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。DistributedFileSystem返回DFSOutputStream,...

2016-12-23 21:32:05

阅读数 356

评论数 0

Replica Placement(副本放在位置)

There’s a trade- off between reliability and write bandwidth and read bandwidth herethe first replica on the same node as the client (for clients ru...

2016-12-23 21:27:04

阅读数 193

评论数 0

RawCompare

TextPair 包含了两个Textpublic static class FirstComparator extends WritableComparator { private static final Text.Comparator TEXT_COMPARATOR = new Text.Co...

2016-12-23 21:24:43

阅读数 147

评论数 0

Row-oriented layout  &  Column-oriented layout

现需查询column2 对于基于行存储的表,需要先把每行加载到内存,然后反序列化相应的列(可以节约反序列化整行的时间),但还是浪费了读磁盘的时间 对于基于列存储的表,可以直接读取相应的列,然后进行反序列化

2016-12-23 21:20:28

阅读数 203

评论数 0

MultithreadedMapper的使用

当Map处理每条记录时都很耗时,可以考虑MultithreadedMapper摘自Definition中的一段话: 对于计算密集型型任务,使用MutithreadedMapper不会带来性能提升 2.对于IO密集型任务而言,如联网操作,使用MutithreadedMapper可能会带来性能提升

2016-12-23 21:09:20

阅读数 227

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭