大数据简介

lT.苏浩

已于 2023-07-01 21:37:31 修改

阅读量61

点赞数

分类专栏：大数据技术入门文章标签：大数据

于 2023-07-01 15:15:04 首次发布

本文链接：https://blog.csdn.net/m0_72628462/article/details/131490822

版权

大数据技术入门专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前言

数据是什么

进入21世纪，我们的生活就迈入了"数据时代"，作为21世纪的新青年，"数据"一词经常出现，数据无时无刻的在影响着我们的现实生活。

我们的日常活动所产生的信息记录都是数据，数据的背后都会隐藏着巨大的价值，丰富的数据支撑可以让我们更好的了解事和物在现实世界的运行规律

大数据的简介

1.大数据的发展

大数据的诞生和信息化以及互联网的发展是密切相关的。

大数据的诞生和信息化以及互联网的发展是密切相关的。在2000年后，互联网上的商业行为剧增，现在知名的互联网公司（谷歌、
AWS、腾讯、阿里等）也是在这个年代开始起步。在互联网参与者众多的前提下，商业公司、科研单位等，所能获得的
数据量也是剧增。剧增的数据量，和羸弱的单机性能，让许多科技公司开始尝试以数量来解决问题。在这个过程中，分布式处理技术诞生了。

在这里插入图片描述

Apache Hadoop 是一款开源的分布式处理技术栈

为业界提供了

基于Hadoop HDFS的：分布式数据存储技术
基于Hadoop MapReduce的：分布式数据计算技术
基于Hadoop YARN的：分布式资源调度技术

2.什么是大数据

狭义上：大数据是一类技术栈，是一种用来处理海量数据的软件技术体系。

广义上：大数据是数字化时代、信息化时代的基础（技术）支撑，以数据为生活赋能。

3.大数据的特征

在这里插入图片描述

4.大数据的核心工作

大数据的核心工作其实就是：从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。

在这里插入图片描述

4.大数据软件生态

大数据软件生态，基本上围绕着三大工作体系：数据存储，数据计算，数据传输

数据存储

Apache Hadoop - HDFS

Apache Hadoop框架内的组件HDFS是大数据体系中使用

最为广泛的分布式存储技术。
Apache HBase

Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术

HBase是基于HDFS之上构建的。

数据计算

Apache Hadoop - MapReduce

Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎

对大数据的发展做出了卓越的贡献。

Apache Hive

Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop

的MapReduce技术。

Apache Spark

Apache Spark是目前全球范围内最火热的分布式内存计算引擎。

是大数据体系中的明星计算产品。
Apache Flink

Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。

特别是在实时计算（流计算）领域，Flink占据了大多数的国内市场。

数据传输

Apache Kafka

Apache Kafka是一款分布式的消息系统，可以完成海量规模的数据传输工作。

Apache Kafka在大数据领域也是明星产品。
Apache Pulsar

Apache Pulsar同样是一款分布式的消息系统。

在大数据领域同样有非常多的使用者。

Apache Flume

Apache Flume是一款流式数据采集工具，可以从非常多的数据源中

完成数据采集传输的任务。

Apache Sqoop

Apache Sqoop是一款ETL工具，可以协助大数据体系和关系型数据库

之间进行数据传输。

总结

以上就是今天要讲的内容，本文仅仅简单介绍了大数据的简介，帮助自己了解了大数据软件生态以及发展。

lT.苏浩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据简介

大数据的诞生和信息化以及互联网的发展是密切相关的。大数据的诞生和信息化以及互联网的发展是密切相关的。在2000年后，互联网上的商业行为剧增，现在知名的互联网公司（谷歌、AWS、腾讯、阿里等）也是在这个年代开始起步。在互联网参与者众多的前提下，商业公司、科研单位等，所能获得的数据量也是剧增。剧增的数据量，和羸弱的单机性能，让许多科技公司开始尝试以数量来解决问题。在这个过程中，分布式处理技术诞生了。是一款开源的分布式处理技术栈为业界提供了基于Hadoop HDFS的：分布式数据存储技术。
复制链接

扫一扫

专栏目录