- 博客(4)
- 资源 (15)
- 收藏
- 关注
转载 Spark计算过程分析
基本概念Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时Spark也提供了更丰富的计算API。MapReduce是Hadoop和Spark的计算模型,其特点是Map和Reduce过程
2015-05-28 18:35:11 5558 1
原创 HIve join详解
1.什么是等值连接?2.hive转换多表join时,如果每个表在join字句中,使用的都是同一个列,该如何处理?3.LEFT,RIGHT,FULL OUTER连接的作用是什么?4.LEFT或RIGHT join是连接从左边还有右边?Hive表连接的语法支持如下:Sql代码 join_table: table_reference JOIN ta
2015-05-25 22:53:17 2241
转载 数据仓库与数据集市
看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:(1) 基本概念(2) 为什么提出数据集市(3) 数据仓库设计方法论(4) 数据集市和数据仓库的区别(5) 仓库建模与集市建模(6) 案例分析:电信CRM数据仓库Bill Inmon说过一句话叫“IT经理
2015-05-21 09:01:29 1106
转载 [翻译][Trident] Storm Trident 教程
英文原址:https://github.com/nathanmarz/storm/wiki/Trident-tutorial----------------Trident是在storm基础上,一个以realtime 计算为目标的高度抽象。 它在提供处理大吞吐量数据能力的同时,也提供了低延时分布式查询和有状态流式处理的能力。 如果你对Pig和Cascading这种高级批量处理
2015-05-20 09:21:53 494
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人