- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 Storm中的worker Executor Task
Storm在集群上运行一个Topology时,主要通过以下3个实体来完成Topology的执行工作: Worker(进程) Executor(线程) Task 下图简要描述了这3者之间的关系: 1个worker进程执行的是1个topology的子集(注:不会出现1个worker为多个topology服务)。1个worker进程会启动1个或多个executor线程来执行1个
2016-12-23 21:53:02 380
原创 String,StringBuffer、StringBuilder的那些事
public class StringText { public static void main(String[] args){ String s1,s2,s3,s4; s1 = new String("123"); s2 = new String("123"); s3 = "123"; s4 = "123"; S
2016-12-23 21:47:39 187
原创 String、StringBuffer、StringBuilder区别
StringBuffer、StringBuilder和String一样,也用来代表字符串。String类是不可变类,任何对String的改变都 会引发新的String对象的生成;StringBuffer则是可变类,任何对它所指代的字符串的改变都不会产生新的对象。既然可变和不可变都有了,为何还有一个StringBuilder呢?相信初期的你,在进行append时,一般都会选择StringBuffer
2016-12-23 21:39:25 184
原创 节点的网络拓扑距离
The idea is that the bandwidth available for each of the following scenarios becomes progressively less:1. Processes on the same node2. Different nodes on the same rack3. Nodes on different racks in
2016-12-23 21:36:31 3548
原创 HDFS写文件过程
客户端调用create()来创建文件DistributedFileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件。元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。DistributedFileSystem返回DFSOutputStream,客户端用于写数据。客户端开始写入数据,DFSOutputStream将数据分成块,写入data que
2016-12-23 21:32:05 519
原创 Replica Placement(副本放在位置)
There’s a trade- off between reliability and write bandwidth and read bandwidth herethe first replica on the same node as the client (for clients running outside the cluster, a node is chosen at rando
2016-12-23 21:27:04 434
原创 RawCompare
TextPair 包含了两个Textpublic static class FirstComparator extends WritableComparator {private static final Text.Comparator TEXT_COMPARATOR = new Text.Comparator(); public FirstComparator() { super
2016-12-23 21:24:43 297
原创 Row-oriented layout & Column-oriented layout
现需查询column2 对于基于行存储的表,需要先把每行加载到内存,然后反序列化相应的列(可以节约反序列化整行的时间),但还是浪费了读磁盘的时间对于基于列存储的表,可以直接读取相应的列,然后进行反序列化
2016-12-23 21:20:28 318
原创 MultithreadedMapper的使用
当Map处理每条记录时都很耗时,可以考虑MultithreadedMapper摘自Definition中的一段话: 对于计算密集型型任务,使用MutithreadedMapper不会带来性能提升 2.对于IO密集型任务而言,如联网操作,使用MutithreadedMapper可能会带来性能提升
2016-12-23 21:09:20 492
转载 MapReduce 中的两表 join 几种方案简介
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File
2016-12-23 20:58:13 234
转载 SQL 查询横表变竖表
SQL 查询横表变竖表/*普通行列转换假设有张学生成绩表(tb)如下:Name Subject Result张三 语文 74张三 数学 83张三 物理 93李四 语文 74李四 数学 84李四 物理 94*/------------------------------------------------
2016-12-23 20:55:56 3260
推荐系统数据全集
2017-12-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人