大数据概况与 Hadoop 生态圈
前言
1、什么是大数据
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2、大数据的特征
4V + 1O 特征
- Volume(大数据量)
采集、存储和计算的数据量大。大数据的起始计量单位至少是 PB 量级的。 - Variety(类型繁多)
数据种类和来源多样化。数据的种类包括结构化数据,半结构化数据,非结构化数据,具体表现为日志,音频,视频,图片,地理位置信息等。 - Value(价值密度低)
数据价值密度较低,如何从海量的数据中挖掘数据价值,是大数据时代亟需解决的问题。 - Velocity(速度快、时效高)
数据增长速度快、处理速度快,时效性要求高。 - Online(数据在线)
数据永远是在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特点。
固有特征
-
时效性
数据在某一时间段内具有对决策有价值的属性,也就是说,同一信息在不同的时间具有很大的性质上的差异,这个差异就是数据的时效性。信息的时效性决定了决策在哪些时间内有效。 -
不可变性
已产生的数据不会改变,大数据的变化可看作是新数据条目的产生,而不是对现有条目的更新。
3、分布式计算比较
大数据时代给以往的技术带来了新的挑战,由于传统的分布式架构存在弊端:无法实现大数据的计算要求,所以产生了新的分布式计算架构,基于 Hadoop 集群的分布式计算。
传统分布式计算 | 新的分布式计算 - Hadoop | |
---|---|---|
计算方式 | 将数据复制到计算节点 | 在不同数据节点并行计算 |
可处理数据量 | 小数据量 | 大数据量 |
CPU性能限制 | 受CPU限制较大 | 受单台设备限制小 |
提升计算能力 | 提升单台机器计算能力 | 扩展低成本服务器集群 |
一、Hadoop 介绍
1、Hadoop 是什么
Hadoop 就是一个开源分布式系统架构
Hadoop 是由 Java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心是 HDFS 与 MapReduce,主要包括以下三部分:
- 分布式文件系统 HDFS —— 用于数据的分布式存储和高吞吐量访问。
- 分布式计算框架 MapReduce —— 用于大数据集的并行处理和计算。
- 分布式资源管理系统 YARN —— 用于集群资源管理和作业调度。
Hadoop 是目前处理