2017年06月_诠释轻音

10月 06月 05月 01月

原创 MapReduce详解

MapReduce模型简介： •MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数：Map和Reduce •编程容易，不需要掌握分布式并行编程细节，也可以很容易把自己的程序运行在分布式系统上，完成海量数据的计算 •MapReduce采用“分而治之”策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可

2017-06-13 18:20:23 16278 4

原创 Hive的数据类型与基础操作

表 Hive的基本数据类型：类型描述示例TINYINT1个字节（8位）有符号整数1SMALLINT2个字节（16位）有符号整数1INT4个字节（32位）有符号整数1BIGINT8个字节

2017-06-13 11:35:18 739

原创 Hive的工作原理

一、SQL语句转换成MapReduce作业的基本原理join的实现原理：sql获取的数据先通过map函数处理，转换成key-value形式，接着shuffle为归并的过程，将key相同的归并到一起，最后通过Reduce函数处理。（关于MapReduce与shuffle的详解请看MapReduce篇）二、Hive中SQL查询转换成MapReduce作业的过程

2017-06-13 09:50:50 941

原创数据仓库hive（简介与应用）

数据仓库概念：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。hive简介： •Hive是一个构建于Hadoop顶层的数据仓库工具 •支持大规模数据存储、分析，

2017-06-13 09:27:43 1708

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 MapReduce详解

原创 Hive的数据类型与基础操作

原创 Hive的工作原理

原创 数据仓库hive（简介与应用）

空空如也

空空如也

原创数据仓库hive（简介与应用）