Troy1214-CSDN博客

转载大数据之数据仓库

一、数据库和数据仓库的区别简而言之，数据库是面向事务设计的，数据仓库是面向主题设计的。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID。W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。

2017-08-29 13:59:37 945

转载 MapReduce排序分组

一、什么是inputSplit InputSplit是指分片，在MapReduce当中作业中，作为map task最小输入单位。分片是基于文件基础上出来的而来的概念，通俗的理解一个文件可以切分为多少个片段，每个片段包括了等信息。在MapTask拿到这些分片后，会知道从哪开始读取数据。二、Combiner Partitioner Shuffle Combiner的

2017-08-15 22:14:47 952

转载 MR架构、MR工作流程

一、MR的架构1、简介：MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集 2、4个对象：客户端：编写mapreduce程序，配置作业，提交作业，这就是程序员完成的工作； JobTracker：初始化作业，分配作业，

2017-08-15 21:43:55 4087 1

转载大数据之IO操作

一、Sequencefile简介 Sequencefile由一系列的二进制key/value组成，如果key为小文件名，value为文件内容，则可以将大批小文件合并成一个大文件。其存储结构如下图所示：SequenceFile储存文件中每条记录是可序列化,可持久化的键值对,提供相应的读写器和排序器,写操作根据压缩的类型分为3种–Write无压缩写数据–R

2017-08-13 22:36:56 650

转载大数据之hdfs架构、读写策略、shell命令

一、hdfs架构简介文件系统：由三部分组成与文件管理有关软件、被管理文件以及实施文件管理所需数据结构。元数据：用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。更简单的说，是关于数据的数据。HDFS就是将巨大的数据变成大量数据的数据。架构组成：

2017-08-13 22:02:20 510

转载大数据基础知识

一、什么是大数据一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

2017-08-07 21:06:45 18969 1

Troy1214的博客

转载大数据之数据仓库

转载 MapReduce排序分组

转载 MR架构、MR工作流程

转载大数据之IO操作

转载大数据之hdfs架构、读写策略、shell命令

转载大数据基础知识

空空如也

空空如也

转载 大数据之数据仓库

转载 MapReduce排序分组

转载 MR架构、MR工作流程

转载 大数据之IO操作

转载 大数据之hdfs架构、读写策略、shell命令

转载 大数据基础知识

空空如也

空空如也

转载大数据之数据仓库

转载大数据之IO操作

转载大数据之hdfs架构、读写策略、shell命令

转载大数据基础知识