大数据
艾翁
这个作者很懒,什么都没留下…
展开
-
MultithreadedMapper的使用
当Map处理每条记录时都很耗时,可以考虑MultithreadedMapper摘自Definition中的一段话: 对于计算密集型型任务,使用MutithreadedMapper不会带来性能提升 2.对于IO密集型任务而言,如联网操作,使用MutithreadedMapper可能会带来性能提升原创 2016-12-23 21:09:20 · 477 阅读 · 0 评论 -
Row-oriented layout & Column-oriented layout
现需查询column2 对于基于行存储的表,需要先把每行加载到内存,然后反序列化相应的列(可以节约反序列化整行的时间),但还是浪费了读磁盘的时间 对于基于列存储的表,可以直接读取相应的列,然后进行反序列化原创 2016-12-23 21:20:28 · 304 阅读 · 0 评论 -
RawCompare
TextPair 包含了两个Textpublic static class FirstComparator extends WritableComparator { private static final Text.Comparator TEXT_COMPARATOR = new Text.Comparator(); public FirstComparator() { super原创 2016-12-23 21:24:43 · 275 阅读 · 0 评论 -
Replica Placement(副本放在位置)
There’s a trade- off between reliability and write bandwidth and read bandwidth herethe first replica on the same node as the client (for clients running outside the cluster, a node is chosen at rando原创 2016-12-23 21:27:04 · 410 阅读 · 0 评论 -
HDFS写文件过程
客户端调用create()来创建文件DistributedFileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件。元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。DistributedFileSystem返回DFSOutputStream,客户端用于写数据。客户端开始写入数据,DFSOutputStream将数据分成块,写入data que原创 2016-12-23 21:32:05 · 503 阅读 · 0 评论 -
节点的网络拓扑距离
The idea is that the bandwidth available for each of the following scenarios becomes progressively less:1. Processes on the same node 2. Different nodes on the same rack 3. Nodes on different racks in原创 2016-12-23 21:36:31 · 3524 阅读 · 0 评论