- 博客(6)
- 收藏
- 关注
转载 大数据之数据仓库
一、数据库和数据仓库的区别 简而言之,数据库是面向事务设计的,数据仓库是面向主题设计的。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
2017-08-29 13:59:37 945
转载 MapReduce排序分组
一、什么是inputSplit InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。二、Combiner Partitioner Shuffle Combiner的
2017-08-15 22:14:47 952
转载 MR架构、MR工作流程
一、MR的架构1、简介:MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集 2、4个对象: 客户端:编写mapreduce程序,配置作业,提交作业,这就是程序员完成的工作; JobTracker:初始化作业,分配作业,
2017-08-15 21:43:55 4087 1
转载 大数据之IO操作
一、Sequencefile简介 Sequencefile由一系列的二进制key/value组成,如果key为小文件名,value为文件内容,则可以将大批小文件合并成一个大文件。其存储结构如下图所示:SequenceFile储存文件中每条记录是可序列化,可持久化的键值对,提供相应的读写器和排序器,写操作根据压缩的类型分为3种–Write无压缩写数据–R
2017-08-13 22:36:56 650
转载 大数据之hdfs架构、读写策略、shell命令
一、hdfs架构简介 文件系统:由三部分组成与文件管理有关软件、被管理文件以及实施文件管理所需数据结构。 元数据:用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式 等有关的信息。更简单的说,是关于数据的数据。HDFS就是将巨大的数据变成大量数据的数据。架构组成:
2017-08-13 22:02:20 510
转载 大数据基础知识
一、什么是大数据 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
2017-08-07 21:06:45 18969 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人