自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 大数据之数据仓库

一、数据库和数据仓库的区别     简而言之,数据库是面向事务设计的,数据仓库是面向主题设计的。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。

2017-08-29 13:59:37 945

转载 MapReduce排序分组

一、什么是inputSplit      InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。二、Combiner Partitioner Shuffle    Combiner的

2017-08-15 22:14:47 952

转载 MR架构、MR工作流程

一、MR的架构1、简介:MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集   2、4个对象:      客户端:编写mapreduce程序,配置作业,提交作业,这就是程序员完成的工作;      JobTracker:初始化作业,分配作业,

2017-08-15 21:43:55 4087 1

转载 大数据之IO操作

一、Sequencefile简介    Sequencefile由一系列的二进制key/value组成,如果key为小文件名,value为文件内容,则可以将大批小文件合并成一个大文件。其存储结构如下图所示:SequenceFile储存文件中每条记录是可序列化,可持久化的键值对,提供相应的读写器和排序器,写操作根据压缩的类型分为3种–Write无压缩写数据–R

2017-08-13 22:36:56 650

转载 大数据之hdfs架构、读写策略、shell命令

一、hdfs架构简介       文件系统:由三部分组成与文件管理有关软件、被管理文件以及实施文件管理所需数据结构。    元数据:用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式                    等有关的信息。更简单的说,是关于数据的数据。HDFS就是将巨大的数据变成大量数据的数据。架构组成:

2017-08-13 22:02:20 510

转载 大数据基础知识

一、什么是大数据        一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

2017-08-07 21:06:45 18969 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除