自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据之数据仓库

一、数据库和数据仓库的区别      简而言之,数据库是面向事务设计的,数据仓库是面向主题设计的。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。 ...

2017-08-29 13:59:37

阅读数 608

评论数 0

MapReduce排序分组

一、什么是inputSplit       InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。...

2017-08-15 22:14:47

阅读数 171

评论数 0

MR架构、MR工作流程

一、MR的架构 1、简介:MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集    2、4个对象:       客户端:编写mapreduce程序,配...

2017-08-15 21:43:55

阅读数 1865

评论数 0

大数据之IO操作

一、Sequencefile简介     Sequencefile由一系列的二进制key/value组成,如果key为小文件名,value为文件内容,则可以将大批小文件合并成一个大文件。其存储结构如下图所示: SequenceFile储存 文件中每条记录是可序列化,可持久...

2017-08-13 22:36:56

阅读数 230

评论数 0

大数据之hdfs架构、读写策略、shell命令

一、hdfs架构简介         文件系统:由三部分组成与文件管理有关软件、被管理文件以及实施文件管理所需数据结构。     元数据:用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式                    等有关的信息。更简单的...

2017-08-13 22:02:20

阅读数 321

评论数 0

大数据基础知识

一、什么是大数据         一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(...

2017-08-07 21:06:45

阅读数 11182

评论数 1

提示
确定要删除当前文章?
取消 删除