weixin_35055135-CSDN博客

转载 0828数据仓库概念学习

数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是：数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化（不同时间）的数据集合，用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题，与传统数据库面向应用相对应。数据库与数据仓库：简而言之，数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。

2017-08-28 20:54:09 313

转载 Hive架构简介

Hive是什么：•由facebook开源，最初用于解决海量结构化的日志数据统计问题；üETL（Extraction-Transformation-Loading）数据抽取、加载、处理工具•构建在Hadoop之上的数据仓库；ü数据计算使用MR，数据存储使用HDFS•Hive 定义了一种类 SQL 查询语言——HQL；ü类似SQL，但不完全相同•通常用于进行离线数据处理

2017-08-17 20:27:30 223

转载 InputSplit&&处理阶段mapReduce【partioner，combiner，shuffle】->reduce

InputSplit输入分片（Input Split）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。Hadoop 2.x默认的block大小是128MB，hadoop 1.x

2017-08-15 20:16:20 820

转载 MapReduce的架构及工作流程

MapReduce框架的组成（1）Mapper负责“分”把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义：1.数据或计算的规模相对原任务要大大缩小2.就近计算原则，任务会分配到存放着所需数据的节点上进行计算3.这些小任务可以并行计算彼此间几乎没有依赖关系（2）Reducer负责对map阶段的结果进行汇总。

2017-08-14 22:32:38 372

转载 SequenceFile与MapFile &hdfs的主要API类--FileSystem FSDataInputStream

HDFS和MR主要针对大数据文件来设计，在小文件处理上效率低.解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源.hdfs提供了两种类型的容器 SequenceFile和MapFile一、SequenceFileSequenceFile的存储类似于Log文件，所不同的是L

2017-08-11 10:50:13 2760

转载 HDFS概念

1.HDFS架构HDFS由NameNode、DataNode、Sencondary NameNode组成，一个HDFS 文件系统包括一个主控节点NameNode 和一组DataNode 从节点。1、NameNode作用：NameNode的作用是管理文件目录结构，接受用户的操作请求,是管理数据节点的。名字节点维护两套数据，一套是文件目录与数

2017-08-10 18:35:07 426

转载大数据基本概念学习

1.什么是大数据：对于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密

2017-08-07 18:51:53 597

weixin_35055135的博客