自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 Storm中的worker Executor Task

Storm在集群上运行一个Topology时,主要通过以下3个实体来完成Topology的执行工作: Worker(进程) Executor(线程) Task 下图简要描述了这3者之间的关系: 1个worker进程执行的是1个topology的子集(注:不会出现1个worker为多个topology服务)。1个worker进程会启动1个或多个executor线程来执行1个

2016-12-23 21:53:02 380

原创 String,StringBuffer、StringBuilder的那些事

public class StringText { public static void main(String[] args){ String s1,s2,s3,s4; s1 = new String("123"); s2 = new String("123"); s3 = "123"; s4 = "123"; S

2016-12-23 21:47:39 187

原创 String、StringBuffer、StringBuilder区别

StringBuffer、StringBuilder和String一样,也用来代表字符串。String类是不可变类,任何对String的改变都 会引发新的String对象的生成;StringBuffer则是可变类,任何对它所指代的字符串的改变都不会产生新的对象。既然可变和不可变都有了,为何还有一个StringBuilder呢?相信初期的你,在进行append时,一般都会选择StringBuffer

2016-12-23 21:39:25 184

原创 节点的网络拓扑距离

The idea is that the bandwidth available for each of the following scenarios becomes progressively less:1. Processes on the same node2. Different nodes on the same rack3. Nodes on different racks in

2016-12-23 21:36:31 3548

原创 HDFS写文件过程

客户端调用create()来创建文件DistributedFileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件。元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。DistributedFileSystem返回DFSOutputStream,客户端用于写数据。客户端开始写入数据,DFSOutputStream将数据分成块,写入data que

2016-12-23 21:32:05 519

原创 Replica Placement(副本放在位置)

There’s a trade- off between reliability and write bandwidth and read bandwidth herethe first replica on the same node as the client (for clients running outside the cluster, a node is chosen at rando

2016-12-23 21:27:04 434

原创 RawCompare

TextPair 包含了两个Textpublic static class FirstComparator extends WritableComparator {private static final Text.Comparator TEXT_COMPARATOR = new Text.Comparator(); public FirstComparator() { super

2016-12-23 21:24:43 297

原创 Row-oriented layout  &  Column-oriented layout

现需查询column2 对于基于行存储的表,需要先把每行加载到内存,然后反序列化相应的列(可以节约反序列化整行的时间),但还是浪费了读磁盘的时间对于基于列存储的表,可以直接读取相应的列,然后进行反序列化

2016-12-23 21:20:28 318

原创 MultithreadedMapper的使用

当Map处理每条记录时都很耗时,可以考虑MultithreadedMapper摘自Definition中的一段话: 对于计算密集型型任务,使用MutithreadedMapper不会带来性能提升 2.对于IO密集型任务而言,如联网操作,使用MutithreadedMapper可能会带来性能提升

2016-12-23 21:09:20 492

转载 MapReduce 中的两表 join 几种方案简介

1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File

2016-12-23 20:58:13 234

转载 SQL 查询横表变竖表

SQL 查询横表变竖表/*普通行列转换假设有张学生成绩表(tb)如下:Name Subject Result张三 语文  74张三 数学  83张三 物理  93李四 语文  74李四 数学  84李四 物理  94*/------------------------------------------------

2016-12-23 20:55:56 3260

推荐系统数据全集

该数据集几乎包含了目前网络上流传的所有推荐系统数据集,包括Epinions,MovieLens,delicious,lastfm,YahooMusic,ml-100k,ml-latest-small等

2017-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除