大数据概况与 Hadoop 生态圈

最新推荐文章于 2022-08-27 06:59:03 发布

GodSuzzZ

最新推荐文章于 2022-08-27 06:59:03 发布

阅读量638

点赞数

分类专栏： Hadoop 文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/GodSuzzZ/article/details/106546584

版权

前言

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Volume（大数据量）
采集、存储和计算的数据量大。大数据的起始计量单位至少是 PB 量级的。
Variety（类型繁多）
数据种类和来源多样化。数据的种类包括结构化数据，半结构化数据，非结构化数据，具体表现为日志，音频，视频，图片，地理位置信息等。
Value（价值密度低）
数据价值密度较低，如何从海量的数据中挖掘数据价值，是大数据时代亟需解决的问题。
Velocity（速度快、时效高）
数据增长速度快、处理速度快，时效性要求高。
Online（数据在线）
数据永远是在线的，是随时能调用和计算的，这是大数据区别于传统数据最大的特点。

时效性
数据在某一时间段内具有对决策有价值的属性，也就是说，同一信息在不同的时间具有很大的性质上的差异，这个差异就是数据的时效性。信息的时效性决定了决策在哪些时间内有效。
不可变性
已产生的数据不会改变，大数据的变化可看作是新数据条目的产生，而不是对现有条目的更新。

大数据时代给以往的技术带来了新的挑战，由于传统的分布式架构存在弊端：无法实现大数据的计算要求，所以产生了新的分布式计算架构，基于 Hadoop 集群的分布式计算。

Hadoop-log

Hadoop 就是一个开源分布式系统架构

Hadoop 是由 Java 语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心是 HDFS 与 MapReduce，主要包括以下三部分：

Hadoop 是目前处理

关注