2015年05月_学要无止尽

06月 05月 03月 02月 01月

转载 Spark计算过程分析

基本概念Spark是一个分布式的内存计算框架，其特点是能处理大规模数据，计算速度快。Spark延续了Hadoop的MapReduce计算模型，相比之下Spark的计算过程保持在内存中，减少了硬盘读写，能够将多个操作进行合并后计算，因此提升了计算速度。同时Spark也提供了更丰富的计算API。MapReduce是Hadoop和Spark的计算模型，其特点是Map和Reduce过程

2015-05-28 18:35:11 5558 1

原创 HIve join详解

1.什么是等值连接？2.hive转换多表join时，如果每个表在join字句中，使用的都是同一个列，该如何处理？3.LEFT，RIGHT，FULL OUTER连接的作用是什么？4.LEFT或RIGHT join是连接从左边还有右边？Hive表连接的语法支持如下：Sql代码 join_table: table_reference JOIN ta

2015-05-25 22:53:17 2241

转载数据仓库与数据集市

看了很多数据仓库方面的资料，都涉及到了“数据集市”这一说法，刚开始对数据仓库和数据集市的区别也理解得比较肤浅，现在做个深入的归纳和总结，主要从如下几个方面进行阐述：（1）基本概念（2）为什么提出数据集市（3）数据仓库设计方法论（4）数据集市和数据仓库的区别（5）仓库建模与集市建模（6）案例分析：电信CRM数据仓库Bill Inmon说过一句话叫“IT经理

2015-05-21 09:01:29 1106

转载 [翻译][Trident] Storm Trident 教程

英文原址：https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上，一个以realtime 计算为目标的高度抽象。它在提供处理大吞吐量数据能力的同时，也提供了低延时分布式查询和有状态流式处理的能力。如果你对Pig和Cascading这种高级批量处理

2015-05-20 09:21:53 494