大数据学习
shanshanhi
这个作者很懒,什么都没留下…
展开
-
Hadoop简介
Hadoop是一个提供分布式存储和计算能力的平台。Hadoop的运行环境如下图所示:高级Hadoop架构如下图所示:HDFS:hadoop的存储组件,其组成组件:NameNode和DataNode,如下图所示:MapReduce:基于批处理的分布式计算框架;MapReduce模型简化了分布式系统中的并行计算、工作分配和处理不可靠硬件和软件等并行处原创 2016-03-22 16:52:33 · 409 阅读 · 0 评论 -
数据仓库初认识
1. 数据仓库与数据库的区别数据库是面向事务的设计,数据仓库是面向主题的设计数据库主要处理的是事务性操作,讲求的是时效,面向操作型;数据仓库是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,是对多个异构数据源的有效集成主要是面向于分析的,发掘数据中的价值(数据挖掘),用于支持管理决策。数据仓库的核心ETL(抽取(Extract),转换(Transform),装载(Lo原创 2016-06-20 20:25:43 · 685 阅读 · 0 评论