2016年12月_艾翁

12月

原创 Storm中的worker Executor Task

Storm在集群上运行一个Topology时，主要通过以下3个实体来完成Topology的执行工作： Worker（进程） Executor（线程） Task 下图简要描述了这3者之间的关系： 1个worker进程执行的是1个topology的子集（注：不会出现1个worker为多个topology服务）。1个worker进程会启动1个或多个executor线程来执行1个

2016-12-23 21:53:02 380

原创 String，StringBuffer、StringBuilder的那些事

public class StringText { public static void main(String[] args){ String s1,s2,s3,s4; s1 = new String("123"); s2 = new String("123"); s3 = "123"; s4 = "123"; S

2016-12-23 21:47:39 187

原创 String、StringBuffer、StringBuilder区别

StringBuffer、StringBuilder和String一样，也用来代表字符串。String类是不可变类，任何对String的改变都会引发新的String对象的生成；StringBuffer则是可变类，任何对它所指代的字符串的改变都不会产生新的对象。既然可变和不可变都有了，为何还有一个StringBuilder呢？相信初期的你，在进行append时，一般都会选择StringBuffer

2016-12-23 21:39:25 184

原创节点的网络拓扑距离

The idea is that the bandwidth available for each of the following scenarios becomes progressively less：1. Processes on the same node2. Different nodes on the same rack3. Nodes on different racks in

2016-12-23 21:36:31 3548

客户端调用create()来创建文件DistributedFileSystem用RPC调用元数据节点，在文件系统的命名空间中创建一个新的文件。元数据节点首先确定文件原来不存在，并且客户端有创建文件的权限，然后创建新文件。DistributedFileSystem返回DFSOutputStream，客户端用于写数据。客户端开始写入数据，DFSOutputStream将数据分成块，写入data que

2016-12-23 21:32:05 519

原创 Replica Placement（副本放在位置）

There’s a trade- off between reliability and write bandwidth and read bandwidth herethe first replica on the same node as the client (for clients running outside the cluster, a node is chosen at rando

2016-12-23 21:27:04 434

原创 RawCompare

TextPair 包含了两个Textpublic static class FirstComparator extends WritableComparator {private static final Text.Comparator TEXT_COMPARATOR = new Text.Comparator(); public FirstComparator() { super

2016-12-23 21:24:43 297

原创 Row-oriented layout & Column-oriented layout

现需查询column2 对于基于行存储的表，需要先把每行加载到内存，然后反序列化相应的列（可以节约反序列化整行的时间），但还是浪费了读磁盘的时间对于基于列存储的表，可以直接读取相应的列，然后进行反序列化

2016-12-23 21:20:28 318

原创 MultithreadedMapper的使用

当Map处理每条记录时都很耗时，可以考虑MultithreadedMapper摘自Definition中的一段话：对于计算密集型型任务，使用MutithreadedMapper不会带来性能提升 2.对于IO密集型任务而言，如联网操作，使用MutithreadedMapper可能会带来性能提升

2016-12-23 21:09:20 492

转载 MapReduce 中的两表 join 几种方案简介

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File

2016-12-23 20:58:13 234

转载 SQL 查询横表变竖表

SQL 查询横表变竖表/*普通行列转换假设有张学生成绩表(tb)如下:Name Subject Result张三语文　　74张三数学　　83张三物理　　93李四语文　　74李四数学　　84李四物理　　94*/------------------------------------------------

2016-12-23 20:55:56 3260

long798266215的博客